基礎問題集
数学1 データの分析「1次回帰直線」の問題1 解説
数学1のデータの分析「1次回帰直線」にある問題1の基礎問題と解説ページです。問題と保存済み解説を公開し、ログイン後はAI質問と学習履歴も利用できます。
MathGrAIl の基礎問題集にある公開問題ページです。ログイン前でも問題と保存済み解説を確認でき、ログイン後はAI質問と学習履歴の保存を利用できます。
- 基礎問題の問題画像と保存済み解説を公開
- ログイン後にAI質問で復習
- ログイン後に学習履歴を保存
解説
方針・初手
まず $x$ と $y$ の平均値、分散、共分散を求める。
そのうえで、条件1より直線 $y=ax+b$ は点 $(\bar{x},\bar{y})$ を通るので、$b$ を $a$ で表すことができる。さらに、各点 $P_k$ と直線上の点 $Q_k$ の距離の2乗和 $L$ を $a$ の2次式として表せば、最小値を与える $a,b$ が求まる。
解法1
$x$ の値は
$$ 50,\ 70,\ 90,\ 80,\ 60 $$
であるから、その平均値は
$$ \bar{x}=\frac{50+70+90+80+60}{5}=\frac{350}{5}=70 $$
である。
したがって、偏差は
$$ x_k-\bar{x}=-20,\ 0,\ 20,\ 10,\ -10 $$
となるので、分散 $s_x^2$ は
$$ s_x^2=\frac{1}{5}\left\{(-20)^2+0^2+20^2+10^2+(-10)^2\right\} $$
$$ =\frac{1}{5}(400+0+400+100+100)=\frac{1000}{5}=200 $$
である。
よって、
$$ \bar{x}=70,\qquad s_x^2=200 $$
となる。
次に、$y$ の平均値は
$$ \bar{y}=\frac{40+60+100+70+50}{5}=\frac{320}{5}=64 $$
である。
したがって、偏差は
$$ y_k-\bar{y}=-24,\ -4,\ 36,\ 6,\ -14 $$
となる。
よって、共分散 $s_{xy}$ は
$$ s_{xy}=\frac{1}{5}\sum_{k=1}^5(x_k-\bar{x})(y_k-\bar{y}) $$
$$ =\frac{1}{5}\left\{(-20)(-24)+0\cdot(-4)+20\cdot36+10\cdot6+(-10)(-14)\right\} $$
$$ =\frac{1}{5}(480+0+720+60+140)=\frac{1400}{5}=280 $$
である。
したがって、
$$ s_{xy}=280 $$
となる。
次に、問題文の式に従って $L$ を求める。
条件1より、直線 $y=ax+b$ は $(\bar{x},\bar{y})$ を通るから
$$ \bar{y}=a\bar{x}+b $$
より
$$ b=-a\bar{x}+\bar{y} $$
である。
したがって、
$$ Q_k=(x_k,ax_k+b)=\left(x_k,\ a(x_k-\bar{x})+\bar{y}\right) $$
となるので、
$$ P_kQ_k^2=\left[y_k-\left\{a(x_k-\bar{x})+\bar{y}\right\}\right]^2 $$
$$ =\left\{(y_k-\bar{y})-a(x_k-\bar{x})\right\}^2 $$
$$ =(y_k-\bar{y})^2-2a(x_k-\bar{x})(y_k-\bar{y})+a^2(x_k-\bar{x})^2 $$
である。
これを $k=1,2,3,4,5$ について和をとると、
$$ L=\sum_{k=1}^5 P_kQ_k^2 $$
$$ =\sum_{k=1}^5 (y_k-\bar{y})^2-2a\sum_{k=1}^5 (x_k-\bar{x})(y_k-\bar{y})+a^2\sum_{k=1}^5 (x_k-\bar{x})^2 $$
ここで、
$$ s_y^2=\frac{1}{5}\sum_{k=1}^5 (y_k-\bar{y})^2,\qquad s_{xy}=\frac{1}{5}\sum_{k=1}^5 (x_k-\bar{x})(y_k-\bar{y}),\qquad s_x^2=\frac{1}{5}\sum_{k=1}^5 (x_k-\bar{x})^2 $$
であるから、
$$ L=5\left(s_x^2a^2-2s_{xy}a+s_y^2\right) $$
となる。
したがって、空欄は
$$ \boxed{\text{ソ}=s_x^2},\qquad \boxed{\text{タ}=2s_{xy}} $$
である。
さらに、$L$ を最小にするには
$$ s_x^2a^2-2s_{xy}a+s_y^2 $$
を最小にすればよい。これは $a$ の2次式であり、$s_x^2>0$ なので、最小値は
$$ a=\frac{s_{xy}}{s_x^2} $$
のときにとる。
ここで $s_{xy}=280,\ s_x^2=200$ だから、
$$ a=\frac{280}{200}=\frac{7}{5} $$
である。
また、
$$ b=-a\bar{x}+\bar{y} $$
より、
$$ b=-\frac{7}{5}\cdot 70+64=-98+64=-34 $$
である。
よって、
$$ a=\frac{7}{5},\qquad b=-34 $$
となる。
解説
この問題は、与えられた5点に最もよく合う直線、すなわち回帰直線を求める問題である。
重要なのは、条件1から直線が必ず $(\bar{x},\bar{y})$ を通ることと、条件2の距離の2乗和 $L$ を $a$ の2次式に直すことである。すると、最小値問題は単なる2次関数の最小値の問題に帰着する。
また、係数 $a=\dfrac{s_{xy}}{s_x^2}$ となることから、傾きは「$x$ と $y$ の結びつきの強さ」を表す共分散と、「$x$ のばらつき」を表す分散によって決まることが分かる。
答え
$$ \boxed{\text{シ}=70},\qquad \boxed{\text{ス}=200},\qquad \boxed{\text{セ}=280} $$
$$ \boxed{\text{ソ}=s_x^2},\qquad \boxed{\text{タ}=2s_{xy}} $$
$$ \boxed{\text{チ}=\frac{7}{5}},\qquad \boxed{\text{ツ}=-34} $$
したがって、求める直線は
$$ \boxed{y=\frac{7}{5}x-34} $$
である。