目標
「データの分類」について理解する
データ分析の基本プロセス(再掲載)
データ分析の基本プロセス(再掲載)
データ分析のプロセスを段階的に表すと以下のようになります。
- 問題解決のための課題を設定し、調査方法などを計画し定める。
- データを取得し、管理し、加工する。(今回の記事)
- 収集したデータを解析・分析する。
- 分析結果から知見を導出する。
- 分析結果の共有と問題解決のための方針の決定と提案。
「データの分類」
データは次の観点から分類することができます。
- データの性質
- データの表現形式
- データの所有者
「データの性質」による分類
データを性質で分類する場合、データが持つ数値的な意味に着目します。この時、データの持つ数値が「数値的な意味を持つもの」と「数値的な意味がないもの」に分けられます。
- 「数値的な意味を持つもの」→気温・テストの点数・時間
- 「数値的な意味がないもの」→順番・成績・アンケートの選択肢
この分類では「数値的な意味を持つもの」を「量的データ」といい、「数値的な意味がないもの」を「質的データ」といいます。
Stevens の尺度水準による データの分類
データを数値的な意味のるものと、そうでないものでわけた「量的データ」と「質的データ」はStevensの尺度水準によって、更に「比例尺度」「間隔尺度」「順序尺度」「名義尺度」に分けることができます。
- 「量的データ」…「比例尺度」「間隔尺度」
- 「質的データ」…「順序尺度」「名義尺度」
「比例尺度」「間隔尺度」「順序尺度」「名義尺度」には上下関係を持っていて、「比例尺度」>「間隔尺度」>「順序尺度」>「名義尺度」の関係があります。上位の尺度は下位の尺度の統計量を利用できます。
「比例尺度」
「比例尺度」は「0が原点であり、間隔と比率に意味があるもの」です。
例:速度・通貨貨幣・重さ・長さ・記録的な時間
→:投手の球速が高校生の頃の105Kmから、比べて126kmと1.2倍になった。
「間隔尺度」
「間隔尺度」は「0が原点であり、間隔に意味があるもの」です。
例:温度(摂氏や華氏)・西暦・得点
→:今日の朝の気温は18℃で夕方には11℃と7℃も下がった。
「順序尺度」
「順序尺度」は「順序、大小に意味がり、間隔には意味がないもの」です。
例:順位・評価・資格の級、段・段階・アンケート
→:マラソン大会で兄は1位、弟は4位になった。
「名義尺度」
「名義尺度」は「区別分類に利用するための尺度」です。
例:電話番号、郵便番号、性別、部署など
→:経理部を「1」総務部を「2」営業部を「3」とする。
これらは次の関係があります。
尺度 | 大小関係 | 加算・減算 | 乗算・除算 |
比例尺度 | 〇 | 〇 | 〇 |
間隔尺度 | 〇 | 〇 | ー |
順序尺度 | 〇 | ー | ー |
名義尺度 | ー | ー | ー |
「データの表現形式」による分類
データの表現形式とはファイルの形式に近いです。表現形式の違いには次のものがあります。「構造化データ」「非構造化データ」
- 「構造化データ」…表形式のデータ
- 「非構造化データ」…画像や音声などのデータ
「構造化データ」はデータの分析に用いやすいデータで、「非構造化データ」はデータ分析前に数値化する必要があります。
「データの所有者」による分類
データは「自分で集めたもの」と「他人が集めたもの」に分けることができます。このうち自分が集めたオリジナルのデータを「1次データ」といい、他人が集めたデータ(世の中に公開されているデータなど)を「2次データ」といいます。
2次データを利用する場合は「クリエイティブ・コモンズ・ライセンス」について注意する必要があります。また既に加工済みのデータであるかも注意して利用します(加工済みのデータを3次データと呼んだりします)。
今回は以上となります。
ブックマークのすすめ
「ほわほわぶろぐ」を常に検索するのが面倒だという方はブックマークをお勧めします。ブックマークの設定は別記事にて掲載しています。