- 公開日:
エクセルを使った回帰分析のやり方
エクセルを使った回帰分析の方法について解説します。
回帰分析の種類や各回帰分析の手順などを詳しくご説明しています。
また回帰分析の読み解き方や重要な数値などについても解説しています。
回帰分析とは?
回帰分析とは、「目的変数と予測変数がどれだけ影響を与えるのかを予測する分析方法」を指します。
例えば「広告費と売上」の関係について予測したい場合、目的変数とは「広告費を◯◯円かけたとき売り上げはおおよそ何円になるか」という「結果」を指します。
説明変数は、その「結果」を予測するために使われる「原因」「要因」を指します。
目的関数には別の言い方として以下のようなものもあります。すべて何かの「結果」になるものを指しています。
- 結果変数
- 従属変数
- 応答変数
説明変数にも別の言い方として以下のようなものもあります。すべて何かの「原因」になるものを指しています。
- 説明変数
- 予測変数
- 独立変数
回帰分析には「単回帰分析」と「重回帰分析」の2つの種類があります。以下では「単回帰分析」と「重回帰分析」についてご紹介します。
単回帰分析について
単回帰分析は、説明変数と目的変数に一つずつ変数を設定する分析方法です。
簡単にいうと、原因と結果が一対一になっていると考えられるものに使われます。
例えば、「広告費から売上を予測する」という場合は、広告費が説明変数、売上が目的変数になります。
他にも、以下のような分析で活用します。
- 広告費から売上を予測する
- 体重から身長を予測する
重回帰分析について
重回帰分析は、1つの目的変数に対して複数の説明変数を設定し、どれくらい影響があるかを分析する方法です。
例えば、「広告費と季節と店までの距離が売上にどれだけ影響を与えているか分析し、売上を予測する」という場合は、「広告費と季節と店までの距離」が説明変数で、「売上」が目的変数です。
他にも、以下のような分析で活用します。
- 面積、築年数、最寄りの駅からの距離から建物の価格を予測
- 身長、体重、腹囲から血圧を予測
エクセルを使った回帰分析のやり方
エクセルを使った回帰分析の方法をご紹介します。
また結果の読み解き方についても合わせてご説明します。
回帰分析にはエクセルの分析ツールを使用します。
分析ツールはデフォルトでは表示されていないため、ない場合は以下の記事「エクセルで分析ツールを有効にする」セクションの方法で表示させましょう。
Excel(エクセル)で分析ツールを使用してデータ分析する方法
エクセルを使った単回帰分析のやり方
エクセルを使った単回帰分析のやり方は以下のとおりです。
まずはデータを用意します。
今回は、売上単価が売上個数に影響を与えるかどうかを分析します。
①「データ」タブ、②「データ分析」の順に選択します。
「データ分析」ダイアログボックスが表示されます。
①「回帰分析」を選択して、②「OK」ボタンを押します。
「回帰分析」ダイアログボックスが表示されます。
「入力Y範囲」に目的変数が入力されたセル範囲を設定します。
今回はB列の売上個数が目的変数になるため、「B2セルからB11セル」を範囲選択します。
次に、入力X範囲に説明変数を設定します。
①入力X範囲で「A2セルからA11セル」を範囲選択します。
以上で単回帰分析をする設定が完了しました。
②「OK」ボタンを押します。
すると新規シートで、単回帰分析の結果が表示されました。
見やすくするためにセル幅を広げます。
列番号を範囲選択し、最後の線にマウスポインターを合わせて左右に矢印がついた形に変化したらダブルクリックします。
以上で単回帰分析が完了しました。
単回帰分析のデータの読み取り
以下のデータと単回帰分析の結果を使って、データの読み取り方をご説明します。
単回帰分析のデータで重要になる基本の値は以下の3つです。
- 重決定R2(補正R2)
- 係数
- P-値
それぞれ説明します。
まず、重決定R2は「決定係数」と呼ばれる係数です。
重決定 R2は、1に近づくほど当てはまりがいいことを示しています。
数値が低すぎる場合は、分析に向いていないデータであると判断します。
今回は「0.635416794...」で比較的当てはまりがいいと判断できます。
次に、「係数」です。
単回帰分析では、数式を使う場合「y=ax+b」という回帰式で計算し予測します。
分析ツールで当てはめたように、yは目的関数、xは説明関数です。
X値1をa、切片をbに当てはめて式を作成し確認できます。
次に、「P-値」です。下の値(今回は0.0057...)を確認します。
「P-値」は、「極端な結果が出る確率」を示しています。
つまり値が大きいほど、「当てはまらない」「当てが外れている」という意味になります。
P-値は、基本的に0.05(5%)を超えていなければ問題ありません。0.05を超えていないかを確認しましょう。
エクセルを使った重回帰分析のやり方
エクセルを使った重回帰分析のやり方は以下のとおりです。
まずはデータを用意します。
今回は、血圧に体重、身長、腹囲が影響を与えるかどうかを分析します。
①「データ」タブ、②「データ分析」の順に選択します。
「データ分析」ダイアログボックスが表示されます。
①「回帰分析」を選択して、②「OK」ボタンを押します。
「回帰分析」ダイアログボックスが表示されます。
「入力Y範囲」に目的変数が入力されたセル範囲を設定します。
今回はD列の血圧が目的変数になるため、「D2セルからD11セル」を範囲選択します。
次に、入力X範囲に説明変数を設定します。
重回帰分析の場合は、説明変数が入力されたセルをすべて選択します。
①入力X範囲で「A2セルからC11セル」を範囲選択します。
以上で重回帰分析をする設定が完了しました。
②「OK」ボタンを押します。
すると新規シートで、重回帰分析の結果が表示されました。
見やすくするためにセル幅を広げます。
列番号を範囲選択し、最後の線にマウスポインターを合わせて左右に矢印がついた形に変化したらダブルクリックします。
以上で重回帰分析が完了しました。
いくつかNUM!エラーが表示されているセルがあります。
エラーについて、また読み取り方については以下「重回帰分析のデータの読み取り」セクションでご紹介します。
重回帰分析のデータの読み取り
重回帰分析の場合も基本的には、単回帰分析と同じ項目を見ます。
ただし説明変数が複数ある分、解釈の仕方が変わる項目があるため以下で確認しましょう。
以下のデータと重回帰分析の結果を使って、データの読み取り方をご説明します。
重回帰分析のデータで重要になる基本の値は以下の3つです。
- 重決定R2(補正R2)
- P-値
- t値
それぞれ説明します。
まず、重決定R2は「決定係数」と呼ばれる係数です。
重決定 R2は、1に近づくほど当てはまりがいいことを示しています。
数値が低すぎる場合は、分析に向いていないデータであると判断します。
今回は「0.805252153...」で比較的当てはまりがいいと判断できます。
次に、「P-値」です。
一番上は切片のp値になるため除きます。今回の場合は下から2番目と3番目がP-値になります。
「P-値」は、「極端な結果が出る確率」を示しています。これにより重回帰分析の場合は「説明変数の中でどれが一番目的関数に影響を与えているか」を判断できます。
「P-値」が小さいほど目的関数に影響を与えていると解釈します。今回は「0.4524....」の方がより影響を与えていると判断します。
ちなみに上記のようにP-値などにエラーが出ている場合は、データ数が少ないことを表しています。データ数を増やして再度解析してみましょう。
次に「t値」です。
t値は各説明変数が目的変数に与える影響の大きさを表しています。
t値はそれぞれの説明変数が目的変数に与える影響の大きさを表し、0から離れているほど影響が大きいと判断します。
また、目安として絶対値が2より小さい場合、対象の説明は変数は目的変数に影響しないと判断します。
今回は一番下の値はマイナスであるため、目的変数に影響を与えていません。中央の値が説明変数に影響を与えていると判断します。