07-データサイエンス

データサイエンス(Part.5)|データ分析のプロセス3(仮説のタイプ分け)|現役エンジニア&プログラミングスクール講師

目標

「仮説のタイプ分け」について理解する

データ分析の基本プロセス(再掲載)

データ分析の基本プロセス(再掲載)

データ分析のプロセスを段階的に表すと以下のようになります。

  1. 問題解決のための課題を設定し、調査方法などを計画し定める。
  2. データを取得し、管理し、加工する。
  3. 収集したデータを解析・分析する。(今回の記事)
  4. 分析結果から知見を導出する。
  5. 分析結果の共有と問題解決のための方針の決定と提案。

「仮説の立て方」

仮説の立て方には次のようにタイプ分けすることができます。

  1. 質的変数(原因) → 量的変数(結果)(カテゴリカル変数 → 数値変数)
  2. 質的変数(原因) → 質的変数(結果)(カテゴリカル変数 → カテゴリカル変数)
  3. 量的変数(原因) → 量的変数(結果)(数値変数 → 数値変数)
  4. 量的変数(原因)→ 質的変数(結果)(数値変数 → カテゴリカル変数)

仮説の立て方に関して、質的変数(カテゴリカル変数)と量的変数(数値変数)の組み合わせを基にして、特定の順番があるわけではありませんが、一般的には、仮説の立て方は次のように進められます。

1. 質的変数 → 量的変数(カテゴリカル変数 → 数値変数)

  • 例: 性別(質的変数)が収入(量的変数)に与える影響。
  • 仮説: 性別が収入に差を生じる。
  • 分析手法: t検定や分散分析(ANOVA)など、質的変数によるグループ間の差異を検定します。

このタイプの仮説は、質的変数(例えば性別や職業、地域など)が量的変数(例えば収入や得点など)に影響を与えるかどうかを調べる場合に立てます。

ANOVA:アノーバ(Analysis of Variance、分散分析)は、複数のグループ間で平均値が異なるかどうかを検定する統計的手法です。主に、質的変数(カテゴリカル変数)によって分けられた複数の量的変数(数値変数)群の間に統計的な差が存在するかを確認するために使用されます。

ANOVAの基本的な考え方

ANOVAは、各グループの平均値の差が偶然のばらつき(誤差)によるものなのか、グループ間の実際の差によるものなのかを検定します。

具体的には:

  1. 各グループ間のばらつき(グループ間変動)
    各グループの平均値と全体の平均値との違いによって生じるばらつき。
  2. グループ内のばらつき(誤差、グループ内変動)
    各グループ内で個々のデータ点がそのグループの平均値からどれだけ離れているかによるばらつき。

ANOVAは、これらのばらつきがどの程度異なるかを比較することで、「グループ間の差異が有意かどうか」を判断します。

2. 質的変数 → 質的変数(カテゴリカル変数 → カテゴリカル変数)

  • 例: 職業(質的変数)と教育レベル(質的変数)との関係。
  • 仮説: 特定の職業に従事している人々は特定の教育レベルに多い。
  • 分析手法: クロス集計、カイ二乗検定(Chi-square)など、カテゴリカル変数同士の関連を調べます。

こちらは、異なるカテゴリ間の関連や依存関係を検討する際に使います。

3. 量的変数 → 量的変数(数値変数 → 数値変数)

  • 例: 年齢(量的変数)と収入(量的変数)との関係。
  • 仮説: 年齢が増えることで収入も増える。
  • 分析手法: 回帰分析(線形回帰や相関分析)など、数値変数間の関係性を評価します。

この仮説では、2つの量的変数間の関係(例えば相関や因果関係)を調べます。

4. 量的変数 → 質的変数(数値変数 → カテゴリカル変数)

  • 例: 年収(量的変数)が購買傾向(質的変数)に影響を与える。
  • 仮説: 年収が高いほど、高級商品を購入する傾向が強い。
  • 分析手法: ロジスティック回帰、決定木など、数値変数がカテゴリカル変数に与える影響を調べます。

こちらは、量的変数がカテゴリカルな結果(例:購買するかしないか)を予測する場合に使います。

まとめ

基本的に、仮説は同時に立てることもできますが、仮説の順番は研究の目的や問題に基づいて設定されるのが一般的です。順番にこだわるというよりも、何を明らかにしたいのか、どの変数間に関心があるのかを優先して仮説を立てるとよいでしょう。

例えば、社会学的な調査では、質的変数 → 量的変数(性別 → 収入)や量的変数 → 質的変数(年収 → 購買行動)を使うことがよくあります。逆に、マーケティングの分析などでは、量的変数 → 量的変数質的変数 → 質的変数を設定することも多いです。

今回は以上となります。

ブックマークのすすめ

「ほわほわぶろぐ」を常に検索するのが面倒だという方はブックマークをお勧めします。ブックマークの設定は別記事にて掲載しています。

「お気に入り」の登録・削除方法【Google Chrome / Microsoft Edge】「お気に入り」の登録・削除方法【Google Chrome / Microsoft Edge】について解説している記事です。削除方法も掲載しています。...
【パソコン選び】失敗しないための重要ポイント | 現役エンジニア&プログラミングスクール講師【パソコン選び】失敗しないための重要ポイントについての記事です。パソコンのタイプと購入時に検討すべき点・家電量販店で見かけるCPUの見方・購入者が必要とするメモリ容量・HDDとSSDについて・ディスプレイの種類・バッテリーの持ち時間や保証・Officeソフト・ウィルス対策ソフトについて書いています。...
RELATED POST
07-データサイエンス

データサイエンス(Part.3)|データ分析のプロセス1(課題と仮説の設定方法) | 現役エンジニア&プログラミングスクール講師

2023年12月22日
プログラミング学習 おすすめ書籍情報発信 パソコン初心者 エンジニア希望者 新人エンジニア IT業界への就職・転職希望者 サポートサイト Programming learning Recommended schools Recommended books Information dissemination Computer beginners Prospective engineers New engineers Prospective job seekers in the IT industry Support site
07-データサイエンス

データサイエンス(Part.1)|データサイエンスの概要 | 現役エンジニア&プログラミングスクール講師

2023年11月25日
プログラミング学習 おすすめ書籍情報発信 パソコン初心者 エンジニア希望者 新人エンジニア IT業界への就職・転職希望者 サポートサイト Programming learning Recommended schools Recommended books Information dissemination Computer beginners Prospective engineers New engineers Prospective job seekers in the IT industry Support site
07-データサイエンス

データサイエンス| まとめ | 現役エンジニア&プログラミングスクール講師

2023年12月4日
プログラミング学習 おすすめ書籍情報発信 パソコン初心者 エンジニア希望者 新人エンジニア IT業界への就職・転職希望者 サポートサイト Programming learning Recommended schools Recommended books Information dissemination Computer beginners Prospective engineers New engineers Prospective job seekers in the IT industry Support site
07-データサイエンス

【高評価スクール】AI人材を育成する「eラーニングプラットフォーム」ーキカガク編ー | 現役エンジニア&プログラミングスクール講師

2025年5月24日
プログラミング学習 おすすめ書籍情報発信 パソコン初心者 エンジニア希望者 新人エンジニア IT業界への就職・転職希望者 サポートサイト Programming learning Recommended schools Recommended books Information dissemination Computer beginners Prospective engineers New engineers Prospective job seekers in the IT industry Support site
07-データサイエンス

データサイエンス(Part.4)|データ分析のプロセス2(データの分類)|現役エンジニア&プログラミングスクール講師

2024年1月12日
プログラミング学習 おすすめ書籍情報発信 パソコン初心者 エンジニア希望者 新人エンジニア IT業界への就職・転職希望者 サポートサイト Programming learning Recommended schools Recommended books Information dissemination Computer beginners Prospective engineers New engineers Prospective job seekers in the IT industry Support site
07-データサイエンス

データサイエンス(Part.2)|データ分析の基本プロセス | 現役エンジニア&プログラミングスクール講師

2023年11月27日
プログラミング学習 おすすめ書籍情報発信 パソコン初心者 エンジニア希望者 新人エンジニア IT業界への就職・転職希望者 サポートサイト Programming learning Recommended schools Recommended books Information dissemination Computer beginners Prospective engineers New engineers Prospective job seekers in the IT industry Support site