07-データサイエンス

データサイエンス(Part.9)|データ分析のプロセス3(ロジスティック回帰、決定木)

目標

「ロジスティック回帰、決定木」について理解する

量的変数 → 質的変数(数値変数 → カテゴリカル変数)の関係を検証します。

ロジスティック回帰決定木 は、どちらも機械学習や統計モデリングで広く使われる手法ですが、性質や用途が違います。

ロジスティック回帰(Logistic Regression)

手法の概要

  • 二値分類(0/1) の予測に使う統計モデル。
  • 入力変数(説明変数)と目的変数の関係を「確率」としてモデル化する。
  • 出力は 0〜1の確率 → しきい値を設定してクラス分類。

数式イメージ:

利用方法

  • 「Yes/No」「成功/失敗」「購入する/しない」など、結果が二値の問題。
  • 係数を見れば「どの要因が結果にどう影響しているか」が解釈できる。

ロジスティック回帰は「0/1の二値データ(購入する / しない)」を扱います。例えば、売上データなどは「連続的な数値」なので、ロジスティック回帰ではなく 線形回帰モデル で予測するのが自然です。

具体的な用途事例

  • 医療: 患者が「病気を発症するか/しないか」。
  • マーケティング: 顧客が「購入するか/しないか」を予測。
  • 金融: 申込者が「ローン返済を延滞するか/しないか」。

Excelでロジスティック回帰を実行する簡単な例

2025年9月現在、Excelの「分析ツールパック」には 線形回帰までの機能しかなく、ロジスティック回帰専用の機能は搭載されていません
ただし、Excelに標準搭載されている 「ソルバー」を利用すれば、最大尤度推定に基づいてロジスティック回帰を実行することが可能です。

例題

顧客が「広告クリックしたか(X)」と「購入したか(Y)」のデータを利用して「クリックと購入の関係性」「購入確率の数値化」「効果の強さを「オッズ比」で表現」「データの適合度(どのくらい当たっているか)」を確認します。この確認に「対数尤度」を利用します。

次のような二値分類「0/1」で扱うデータを準備します。

適当なセルに「切片」と「係数」の欄を作成し、初期値を「0」とします。その他にE列に「予測確率」の欄も作成し、数式「=1/(1+EXP(-( $C$10 + $C$11*C3 )))」を入力しE7までコピーします。

=1/(1+EXP(-( $C$10 + $C$11*C3 )))

F列に「各行の対数尤度」を計算すします(数式:YがD列、予測PがE列の場合)。

=D3*LN(E3) + (1-D3)*LN(1-E3)

C12に対数尤度の合計を出力

=SUM(F3:F7)

この後は、ソルバーで C10(係数)・C11(切片)を動かして、合計対数尤度(C12)が −3.4657 より大きく(=0に近づく) なるよう最適化するように処理します。

ソルバーの利用

  1. データ → ソルバー を開く。
  2. 「目的セル」= $C$12(対数尤度合計)。
  3. 「目的」= 最大化。
  4. 「変数セル」= $C$10:$C$11(切片と係数)。
  5. 制約のない変数を非負数にするのチェックを外す。(※注意:後述)
  6. 解法方法 = GRG 非線形 を選択。
  7. 実行。

「データ」タブをクリック

「ソルバー」をクリック

各値の設定して「解決」をクリック

「制約のない変数を非負数にする」にチェックを入れていると、全ての変数セルは 0以上(非負) に強制されます。検証のケースによってはモデルが正しく当てはまらなくなる → 尤度が最大化できない。ということがあります。

係数が算出されます。

出力から分かったこと

クリックと購入の関係性

  • 係数 b がプラスになる → 「広告をクリックした人ほど購入する確率が高い」
  • 切片 a がマイナスになる → 「クリックしない人は購入する確率が非常に低い」

購入確率を数値化

推定結果(例:正則化なしの理論解)

  • X=0 → P≈0(クリックなしではほぼ買わない)
  • X=1 → P≈0.667(クリックしたら約67%が購入)

効果の強さを「オッズ比」で表現できる

  • 係数 b を指数化するとオッズ比が分かります。
  • b が大きければ「クリックした人は何倍も買いやすい」と言える。

データの適合度(どのくらい当たっているか)

  • 対数尤度の合計が −3.465 → −1.909 に改善し、モデルが「当たりやすくなった」

決定木(Decision Tree)

手法の概要

  • データを「もし〜なら〜」というルールに基づいて分岐させ、分類や回帰を行うアルゴリズム。
  • 木構造で分岐していくので、直感的にわかりやすい。

例:もし「年齢 < 30」かつ「Web広告クリックあり」なら → 購入
  それ以外なら → 未購入

利用方法

  • 目的変数が カテゴリ(○○か△△か、などの確立や分類結果を扱う) の場合
    • → 分類木(classification tree)
  • 目的変数が 数値(売上金額・購入金額などの連続する値) の場合
    • → 回帰木(regression tree)
  • 単純な解釈がしやすく、特徴量の重要度もわかる。

具体的な用途事例

  • マーケティング: 顧客の属性や行動から「どんな人が購入するか」をルール化。
  • 教育: 学習時間・宿題提出率から「合格/不合格」を予測。
  • 医療: 患者データから「手術成功率」を予測。
  • 業務改善: クレームが「重大化する/しない」要因を特定。

決定木(顧客購買予測の例の分類木)

例えば「年齢」「広告クリック」「年収」で顧客の購入を予測するシナリオ。

                ┌── 広告クリック = なし ──→ 購入しない確率高い
                │
開始 ─ 年齢 < 30 ┤
                │
                └── 広告クリック = あり ──→ 年収で分岐
                                    │
                                    ├── 年収 < 400万 → 購入確率 40%
                                    └── 年収 ≥ 400万 → 購入確率 75%

このように「もし〜なら〜」の形でルール化されるので、顧客セグメント別に購買傾向を理解するのに役立ちます。

ロジスティック回帰 vs 決定木

観点ロジスティック回帰決定木
出力確率(0〜1)クラス or 数値
解釈性係数で「要因の影響度」が分かるルール形式で直感的に分かる
データの前提線形性がある方が適合しやすい線形性は不要(複雑な境界も表現可能)
強み統計的に安定、シンプル複雑な関係を捉えやすい
弱み非線形関係は苦手過学習しやすい(ランダムフォレスト等で改善)

まとめ

ロジスティック回帰: 二値の確率を予測、係数の解釈がしやすい。
→ 例:顧客が購入する確率は?

決定木: 「もし〜なら〜」のルールで分類、直感的で非線形も扱える。
→ 例:どんな条件の顧客が購入するか?

今回は以上となります。

ブックマークのすすめ

「ほわほわぶろぐ」を常に検索するのが面倒だという方はブックマークをお勧めします。ブックマークの設定は別記事にて掲載しています。

「お気に入り」の登録・削除方法【Google Chrome / Microsoft Edge】「お気に入り」の登録・削除方法【Google Chrome / Microsoft Edge】について解説している記事です。削除方法も掲載しています。...
【パソコン選び】失敗しないための重要ポイント | 現役エンジニア&プログラミングスクール講師【パソコン選び】失敗しないための重要ポイントについての記事です。パソコンのタイプと購入時に検討すべき点・家電量販店で見かけるCPUの見方・購入者が必要とするメモリ容量・HDDとSSDについて・ディスプレイの種類・バッテリーの持ち時間や保証・Officeソフト・ウィルス対策ソフトについて書いています。...
RELATED POST
07-データサイエンス

【高評価スクール】AI人材を育成する「eラーニングプラットフォーム」ーキカガク編ー | 現役エンジニア&プログラミングスクール講師

2025年5月24日
プログラミング学習 おすすめ書籍情報発信 パソコン初心者 エンジニア希望者 新人エンジニア IT業界への就職・転職希望者 サポートサイト Programming learning Recommended schools Recommended books Information dissemination Computer beginners Prospective engineers New engineers Prospective job seekers in the IT industry Support site
07-データサイエンス

データサイエンス(Part.6)|データ分析のプロセス3(t検定・ANOVA)

2025年9月1日
プログラミング学習 おすすめ書籍情報発信 パソコン初心者 エンジニア希望者 新人エンジニア IT業界への就職・転職希望者 サポートサイト Programming learning Recommended schools Recommended books Information dissemination Computer beginners Prospective engineers New engineers Prospective job seekers in the IT industry Support site
07-データサイエンス

データサイエンス(Part.3)|データ分析のプロセス1(課題と仮説の設定方法)

2023年12月22日
プログラミング学習 おすすめ書籍情報発信 パソコン初心者 エンジニア希望者 新人エンジニア IT業界への就職・転職希望者 サポートサイト Programming learning Recommended schools Recommended books Information dissemination Computer beginners Prospective engineers New engineers Prospective job seekers in the IT industry Support site
07-データサイエンス

データサイエンス(Part.7)|データ分析のプロセス3(クロス集計・カイ二乗検定)

2025年9月2日
プログラミング学習 おすすめ書籍情報発信 パソコン初心者 エンジニア希望者 新人エンジニア IT業界への就職・転職希望者 サポートサイト Programming learning Recommended schools Recommended books Information dissemination Computer beginners Prospective engineers New engineers Prospective job seekers in the IT industry Support site
07-データサイエンス

データサイエンス(Part.10)|データドリブンマーケティング と マーケティングミックスモデリング(MMM)

2025年9月6日
プログラミング学習 おすすめ書籍情報発信 パソコン初心者 エンジニア希望者 新人エンジニア IT業界への就職・転職希望者 サポートサイト Programming learning Recommended schools Recommended books Information dissemination Computer beginners Prospective engineers New engineers Prospective job seekers in the IT industry Support site