07-データサイエンス

データサイエンス(Part.7)|データ分析のプロセス3(クロス集計・カイ二乗検定)

目標

クロス集計について理解する
カイ二乗検定(Chi-square)について理解する

質的変数 → 質的変数(カテゴリカル変数 → カテゴリカル変数)の関係を検証します。

クロス集計(Cross Tabulation)

手法の概要

  • 2つ以上の カテゴリ変数 を組み合わせて、その関係を表形式で集計する方法。
  • 例えば「性別 × 商品購入の有無」などを集計すると、属性ごとの傾向が見える。

利用方法

  • 「性別と購買行動の関係」
  • 「年齢層とサービス利用状況の関係」
  • 「広告媒体とクリック有無の関係」

具体的な用途事例

  • マーケティング: 男性・女性で「購入した/購入しない」を集計し、購買傾向を比較。
  • アンケート調査: 年代別に「満足/不満足」の割合を比較。
  • 医療: 喫煙習慣(あり/なし)と病気発症(あり/なし)の関係を調べる。

クロス集計は「見える化」に強いが、それだけでは「差が統計的に有意か」はわからない。そこで カイ二乗検定 を組み合わせる。

カイ二乗検定(Chi-square test)

手法の概要

  • クロス集計表に基づいて、「2つのカテゴリ変数に関連があるかどうか」を統計的に検定する方法。
  • 「観測された度数(実際のデータ)」と「期待度数(もし無関係ならこうなるはず)」を比べ、差が大きければ関連があると判断。

利用方法

  • データが「カテゴリ型(名義尺度)」であること。
  • サンプルサイズが十分に大きいこと(各セルの期待度数は 5以上が望ましい)。

具体的な用途事例

  1. マーケティング
    • 性別(男性/女性)と購買の有無(購入/未購入)の関連を検定。
    • 広告媒体(TV/Web/新聞)と「認知あり/なし」の関連を検定。
  2. 教育
    • 授業スタイル(対面/オンライン)と「成績が平均以上/未満」の関連。
  3. 医療・疫学
    • 喫煙習慣(あり/なし)と病気発症(あり/なし)の関連。
    • ワクチン接種(接種/未接種)と感染(あり/なし)の関連。

クロス集計とカイ二乗検定の関係

  • クロス集計 = 表にして「関係ありそうだな」と可視化。
  • カイ二乗検定 = 「その関係が統計的に有意か」を判断。

👉 セットで使うのが基本。

Excelを利用したクロス集計とカイ二乗検定

次の様な集計表(「性別」と「商品購入の有無」のアンケート結果)があったとき

性別購入
男性購入
男性未購入
女性購入
男性購入
女性未購入

1. クロス集計(ピボットテーブル)の作成をします。

  1. データを範囲選択
  2. メニュー 「挿入」 → 「ピボットテーブル」
  3. フィールド設定
    • : 「性別」
    • : 「購入」
    • : 「購入」(集計方法=件数)

👉 出力例(クロス集計表):

購入未購入合計
男性4060100
女性7030100
合計11090200

2. カイ二乗検定(χ²検定)を行います。

Excel では直接「クロス集計表からカイ二乗検定」を行う機能はないので、次の手順で計算します。

(1) 観測度数(O):上のピボットテーブルのクロス集計結果(例: 男性×購入=40 など)

(2) 期待度数(E):式:

例: 男性×購入セルの期待度数 = (行合計100 × 列合計110) ÷ 200 = 55
👉 各セルの期待度数を Excel のセル数式で計算します。

購入未購入合計
男性40(期待度数 =55)60(期待度数 =45)100
女性70(期待度数 =55)30(期待度数 =45)100
合計11090200

(3) カイ二乗統計量:式:

👉 Excel のセルに (O-E)^2/E を計算して合計します。

購入未購入
男性4.095.0
女性4.095.0

(4) 自由度

この例では (2-1)×(2-1)=1

(5) p値の計算

Excel の関数を使います:

=CHISQ.DIST.RT(χ², 自由度)

例:

=CHISQ.DIST.RT(18.18, 1)

👉 p値が 0.05 未満なら「性別と購入に有意な関連がある」と判断。

👉 この場合、p値は 0.00002未満(非常に小さい)となり、性別と購入の間に「有意な関連がある」と判断できます。

4. まとめ

用途事例: 性別 × 購買、広告媒体 × 認知、喫煙 × 病気など。

  • クロス集計: 2つのカテゴリ変数を組み合わせて傾向を「見える化」する。
  • カイ二乗検定: その傾向が「偶然かどうか」を統計的に確かめる。

今回は以上となります。

ブックマークのすすめ

「ほわほわぶろぐ」を常に検索するのが面倒だという方はブックマークをお勧めします。ブックマークの設定は別記事にて掲載しています。

「お気に入り」の登録・削除方法【Google Chrome / Microsoft Edge】「お気に入り」の登録・削除方法【Google Chrome / Microsoft Edge】について解説している記事です。削除方法も掲載しています。...
【パソコン選び】失敗しないための重要ポイント | 現役エンジニア&プログラミングスクール講師【パソコン選び】失敗しないための重要ポイントについての記事です。パソコンのタイプと購入時に検討すべき点・家電量販店で見かけるCPUの見方・購入者が必要とするメモリ容量・HDDとSSDについて・ディスプレイの種類・バッテリーの持ち時間や保証・Officeソフト・ウィルス対策ソフトについて書いています。...
RELATED POST
no image
07-データサイエンス

データサイエンス(Part.8)|データ分析のプロセス3(相関分析・回帰分析)

2025年9月3日
プログラミング学習 おすすめ書籍情報発信 パソコン初心者 エンジニア希望者 新人エンジニア IT業界への就職・転職希望者 サポートサイト Programming learning Recommended schools Recommended books Information dissemination Computer beginners Prospective engineers New engineers Prospective job seekers in the IT industry Support site
07-データサイエンス

データサイエンス(Part.1)|データサイエンスの概要

2023年11月25日
プログラミング学習 おすすめ書籍情報発信 パソコン初心者 エンジニア希望者 新人エンジニア IT業界への就職・転職希望者 サポートサイト Programming learning Recommended schools Recommended books Information dissemination Computer beginners Prospective engineers New engineers Prospective job seekers in the IT industry Support site
no image
07-データサイエンス

データサイエンス(Part.6)|データ分析のプロセス3(t検定・ANOVA)

2025年9月1日
プログラミング学習 おすすめ書籍情報発信 パソコン初心者 エンジニア希望者 新人エンジニア IT業界への就職・転職希望者 サポートサイト Programming learning Recommended schools Recommended books Information dissemination Computer beginners Prospective engineers New engineers Prospective job seekers in the IT industry Support site
07-データサイエンス

データサイエンス(Part.4)|データ分析のプロセス2(データの分類)

2024年1月12日
プログラミング学習 おすすめ書籍情報発信 パソコン初心者 エンジニア希望者 新人エンジニア IT業界への就職・転職希望者 サポートサイト Programming learning Recommended schools Recommended books Information dissemination Computer beginners Prospective engineers New engineers Prospective job seekers in the IT industry Support site
07-データサイエンス

データサイエンス(Part.3)|データ分析のプロセス1(課題と仮説の設定方法)

2023年12月22日
プログラミング学習 おすすめ書籍情報発信 パソコン初心者 エンジニア希望者 新人エンジニア IT業界への就職・転職希望者 サポートサイト Programming learning Recommended schools Recommended books Information dissemination Computer beginners Prospective engineers New engineers Prospective job seekers in the IT industry Support site
07-データサイエンス

【高評価スクール】AI人材を育成する「eラーニングプラットフォーム」ーキカガク編ー | 現役エンジニア&プログラミングスクール講師

2025年5月24日
プログラミング学習 おすすめ書籍情報発信 パソコン初心者 エンジニア希望者 新人エンジニア IT業界への就職・転職希望者 サポートサイト Programming learning Recommended schools Recommended books Information dissemination Computer beginners Prospective engineers New engineers Prospective job seekers in the IT industry Support site