目標

「データの分類」について理解する

データ分析の基本プロセス(再掲載)

データ分析の基本プロセス(再掲載)

データ分析のプロセスを段階的に表すと以下のようになります。

  1. 問題解決のための課題を設定し、調査方法などを計画し定める。
  2. データを取得し、管理し、加工する。(今回の記事)
  3. 収集したデータを解析・分析する。
  4. 分析結果から知見を導出する。
  5. 分析結果の共有と問題解決のための方針の決定と提案。

「データの分類」

データは次の観点から分類することができます。

  1. データの性質
  2. データの表現形式
  3. データの所有者

「データの性質」による分類

データを性質で分類する場合、データが持つ数値的な意味に着目します。この時、データの持つ数値が「数値的な意味を持つもの」と「数値的な意味がないもの」に分けられます。

  • 「数値的な意味を持つもの」→気温・テストの点数・時間
  • 「数値的な意味がないもの」→順番・成績・アンケートの選択肢

この分類では「数値的な意味を持つもの」を「量的データ」といい、「数値的な意味がないもの」を「質的データ」といいます。

Stevens の尺度水準による データの分類

データを数値的な意味のるものと、そうでないものでわけた「量的データ」と「質的データ」はStevensの尺度水準によって、更に「比例尺度」「間隔尺度」「順序尺度」「名義尺度」に分けることができます。

  • 「量的データ」…「比例尺度」「間隔尺度」
  • 「質的データ」…「順序尺度」「名義尺度」
ほわほわ

「比例尺度」「間隔尺度」「順序尺度」「名義尺度」には上下関係を持っていて、「比例尺度」>「間隔尺度」>「順序尺度」>「名義尺度」の関係があります。上位の尺度は下位の尺度の統計量を利用できます。

「比例尺度」

「比例尺度」は「0が原点であり、間隔と比率に意味があるもの」です。

例:速度・通貨貨幣・重さ・長さ・記録的な時間

→:投手の球速が高校生の頃の105Kmから、比べて126kmと1.2倍になった。

原点0(基準)が必要です。間隔(差)と比率(倍率)に意味があります。

「間隔尺度」

「間隔尺度」は「0が原点であり、間隔に意味があるもの」です。

例:温度(摂氏や華氏)・西暦・得点

→:今日の朝の気温は18℃で夕方には11℃と7℃も下がった。

原点0(基準)が必要です。間隔(差)に意味があります。

「順序尺度」

「順序尺度」は「順序、大小に意味がり、間隔には意味がないもの」です。

例:順位・評価・資格の級、段・段階・アンケート

→:マラソン大会で兄は1位、弟は4位になった。

順序、大小は評価ができるが、間隔(差)には意味がないもの。

「名義尺度」

「名義尺度」は「区別分類に利用するための尺度」です。

例:電話番号、郵便番号、性別、部署など

→:経理部を「1」総務部を「2」営業部を「3」とする。

順序、大小、間隔(差)には意味がありません。

これらは次の関係があります。

尺度大小関係加算・減算乗算・除算
比例尺度
間隔尺度
順序尺度
名義尺度

「データの表現形式」による分類

データの表現形式とはファイルの形式に近いです。表現形式の違いには次のものがあります。「構造化データ」「非構造化データ」

  • 「構造化データ」…表形式のデータ
  • 「非構造化データ」…画像や音声などのデータ

「構造化データ」はデータの分析に用いやすいデータで、「非構造化データ」はデータ分析前に数値化する必要があります。

「データの所有者」による分類

データは「自分で集めたもの」と「他人が集めたもの」に分けることができます。このうち自分が集めたオリジナルのデータを「1次データ」といい、他人が集めたデータ(世の中に公開されているデータなど)を「2次データ」といいます。

ほわほわ

2次データを利用する場合は「クリエイティブ・コモンズ・ライセンス」について注意する必要があります。また既に加工済みのデータであるかも注意して利用します(加工済みのデータを3次データと呼んだりします)。

1次データは収集に大きなコストがかかります。このため価値はとても高いものになります。

2次データや3次データなどのうち「オープンデータ」については別の記事で扱います。

今回は以上となります。

ブックマークのすすめ

「ほわほわぶろぐ」を常に検索するのが面倒だという方はブックマークをお勧めします。ブックマークの設定は別記事にて掲載しています。

「お気に入り」の登録・削除方法【Google Chrome / Microsoft Edge】「お気に入り」の登録・削除方法【Google Chrome / Microsoft Edge】について解説している記事です。削除方法も掲載しています。...
【パソコン選び】失敗しないための重要ポイント | 現役エンジニア&プログラミングスクール講師【パソコン選び】失敗しないための重要ポイントについての記事です。パソコンのタイプと購入時に検討すべき点・家電量販店で見かけるCPUの見方・購入者が必要とするメモリ容量・HDDとSSDについて・ディスプレイの種類・バッテリーの持ち時間や保証・Officeソフト・ウィルス対策ソフトについて書いています。...