データサイエンス（Part.9）｜データ分析のプロセス３（ロジスティック回帰、決定木）｜プログラミング学習おすすめ書籍情報発信パソコン初心者エンジニア希望者新人エンジニア IT業界への就職・転職希望者サポートサイト Programming learning Recommended schools Recommended books Information dissemination Computer beginners Prospective engineers New engineers Prospective job seekers in the IT industry Support site

目標
ロジスティック回帰（Logistic Regression）
Excelでロジスティック回帰を実行する簡単な例
- 例題
- 出力から分かったこと
決定木（Decision Tree）
ロジスティック回帰 vs 決定木
まとめ
ブックマークのすすめ

目標

「ロジスティック回帰、決定木」について理解する

量的変数 → 質的変数（数値変数 → カテゴリカル変数）の関係を検証します。

ロジスティック回帰 と 決定木 は、どちらも機械学習や統計モデリングで広く使われる手法ですが、性質や用途が違います。

ロジスティック回帰（Logistic Regression）

手法の概要

二値分類（0/1） の予測に使う統計モデル。
入力変数（説明変数）と目的変数の関係を「確率」としてモデル化する。
出力は 0〜1の確率 → しきい値を設定してクラス分類。

数式イメージ：

利用方法

「Yes/No」「成功/失敗」「購入する/しない」など、結果が二値の問題。
係数を見れば「どの要因が結果にどう影響しているか」が解釈できる。

ロジスティック回帰は「0/1の二値データ（購入する / しない）」を扱います。例えば、売上データなどは「連続的な数値」なので、ロジスティック回帰ではなく 線形回帰モデル で予測するのが自然です。

具体的な用途事例

医療: 患者が「病気を発症するか/しないか」。
マーケティング: 顧客が「購入するか/しないか」を予測。
金融: 申込者が「ローン返済を延滞するか/しないか」。

Excelでロジスティック回帰を実行する簡単な例

2025年9月現在、Excelの「分析ツールパック」には 線形回帰までの機能しかなく、ロジスティック回帰専用の機能は搭載されていません。
ただし、Excelに標準搭載されている 「ソルバー」を利用すれば、最大尤度推定に基づいてロジスティック回帰を実行することが可能です。

例題

顧客が「広告クリックしたか（X）」と「購入したか（Y）」のデータを利用して「クリックと購入の関係性」「購入確率の数値化」「効果の強さを「オッズ比」で表現」「データの適合度（どのくらい当たっているか）」を確認します。この確認に「対数尤度」を利用します。

次のような二値分類「0/1」で扱うデータを準備します。

適当なセルに「切片」と「係数」の欄を作成し、初期値を「0」とします。その他にE列に「予測確率」の欄も作成し、数式「=1/(1+EXP(-( $C$10 + $C$11*C3 )))」を入力しE7までコピーします。

=1/(1+EXP(-( $C$10 + $C$11*C3 )))

F列に「各行の対数尤度」を計算すします（数式：YがD列、予測PがE列の場合）。

=D3*LN(E3) + (1-D3)*LN(1-E3)

C12に対数尤度の合計を出力

=SUM(F3:F7)

この後は、ソルバーで C10（係数）・C11（切片）を動かして、合計対数尤度（C12）が −3.4657 より大きく（＝0に近づく）なるよう最適化するように処理します。

ソルバーの利用

データ → ソルバーを開く。
「目的セル」= $C$12（対数尤度合計）。
「目的」= 最大化。
「変数セル」= $C$10:$C$11（切片と係数）。
制約のない変数を非負数にするのチェックを外す。（※注意：後述）
解法方法 = GRG 非線形を選択。
実行。

「データ」タブをクリック

「ソルバー」をクリック

各値の設定して「解決」をクリック

「制約のない変数を非負数にする」にチェックを入れていると、全ての変数セルは 0以上（非負） に強制されます。検証のケースによってはモデルが正しく当てはまらなくなる → 尤度が最大化できない。ということがあります。

係数が算出されます。

出力から分かったこと

クリックと購入の関係性

係数 b がプラスになる → 「広告をクリックした人ほど購入する確率が高い」
切片 a がマイナスになる → 「クリックしない人は購入する確率が非常に低い」

購入確率を数値化

推定結果（例：正則化なしの理論解）

X=0 → P≈0（クリックなしではほぼ買わない）
X=1 → P≈0.667（クリックしたら約67%が購入）

効果の強さを「オッズ比」で表現できる

係数 b を指数化するとオッズ比が分かります。
b が大きければ「クリックした人は何倍も買いやすい」と言える。

データの適合度（どのくらい当たっているか）

対数尤度の合計が −3.465 → −1.909 に改善し、モデルが「当たりやすくなった」

決定木（Decision Tree）

手法の概要

データを「もし〜なら〜」というルールに基づいて分岐させ、分類や回帰を行うアルゴリズム。
木構造で分岐していくので、直感的にわかりやすい。

例：もし「年齢 < 30」かつ「Web広告クリックあり」なら → 購入
　　それ以外なら → 未購入

利用方法

目的変数が カテゴリ（○○か△△か、などの確立や分類結果を扱う）の場合
- → 分類木（classification tree）
目的変数が数値（売上金額・購入金額などの連続する値）の場合
- → 回帰木（regression tree）
単純な解釈がしやすく、特徴量の重要度もわかる。

具体的な用途事例

マーケティング: 顧客の属性や行動から「どんな人が購入するか」をルール化。
教育: 学習時間・宿題提出率から「合格/不合格」を予測。
医療: 患者データから「手術成功率」を予測。
業務改善: クレームが「重大化する/しない」要因を特定。

決定木（顧客購買予測の例の分類木）

例えば「年齢」「広告クリック」「年収」で顧客の購入を予測するシナリオ。

                ┌── 広告クリック = なし ──→ 購入しない確率高い
                │
開始 ─ 年齢 < 30 ┤
                │
                └── 広告クリック = あり ──→ 年収で分岐
                                    │
                                    ├── 年収 < 400万 → 購入確率 40%
                                    └── 年収 ≥ 400万 → 購入確率 75%

このように「もし〜なら〜」の形でルール化されるので、顧客セグメント別に購買傾向を理解するのに役立ちます。

ロジスティック回帰 vs 決定木

観点	ロジスティック回帰	決定木
出力	確率（0〜1）	クラス or 数値
解釈性	係数で「要因の影響度」が分かる	ルール形式で直感的に分かる
データの前提	線形性がある方が適合しやすい	線形性は不要（複雑な境界も表現可能）
強み	統計的に安定、シンプル	複雑な関係を捉えやすい
弱み	非線形関係は苦手	過学習しやすい（ランダムフォレスト等で改善）