07-データサイエンス

データサイエンス(Part.4)|データ分析のプロセス2(データの分類)|現役エンジニア&プログラミングスクール講師

目標

「データの分類」について理解する

データ分析の基本プロセス(再掲載)

データ分析の基本プロセス(再掲載)

データ分析のプロセスを段階的に表すと以下のようになります。

  1. 問題解決のための課題を設定し、調査方法などを計画し定める。
  2. データを取得し、管理し、加工する。(今回の記事)
  3. 収集したデータを解析・分析する。
  4. 分析結果から知見を導出する。
  5. 分析結果の共有と問題解決のための方針の決定と提案。

「データの分類」

データは次の観点から分類することができます。

  1. データの性質
  2. データの表現形式
  3. データの所有者

「データの性質」による分類

データを性質で分類する場合、データが持つ数値的な意味に着目します。この時、データの持つ数値が「数値的な意味を持つもの」と「数値的な意味がないもの」に分けられます。

  • 「数値的な意味を持つもの」→気温・テストの点数・時間
  • 「数値的な意味がないもの」→順番・成績・アンケートの選択肢

この分類では「数値的な意味を持つもの」を「量的データ」といい、「数値的な意味がないもの」を「質的データ」といいます。

Stevens の尺度水準による データの分類

データを数値的な意味のるものと、そうでないものでわけた「量的データ」と「質的データ」はStevensの尺度水準によって、更に「比例尺度」「間隔尺度」「順序尺度」「名義尺度」に分けることができます。

  • 「量的データ」…「比例尺度」「間隔尺度」
  • 「質的データ」…「順序尺度」「名義尺度」
ほわほわ

「比例尺度」「間隔尺度」「順序尺度」「名義尺度」には上下関係を持っていて、「比例尺度」>「間隔尺度」>「順序尺度」>「名義尺度」の関係があります。上位の尺度は下位の尺度の統計量を利用できます。

「比例尺度」

「比例尺度」は「0が原点であり、間隔と比率に意味があるもの」です。

例:速度・通貨貨幣・重さ・長さ・記録的な時間

→:投手の球速が高校生の頃の105Kmから、比べて126kmと1.2倍になった。

原点0(基準)が必要です。間隔(差)と比率(倍率)に意味があります。

「間隔尺度」

「間隔尺度」は「0が原点であり、間隔に意味があるもの」です。

例:温度(摂氏や華氏)・西暦・得点

→:今日の朝の気温は18℃で夕方には11℃と7℃も下がった。

原点0(基準)が必要です。間隔(差)に意味があります。

「順序尺度」

「順序尺度」は「順序、大小に意味がり、間隔には意味がないもの」です。

例:順位・評価・資格の級、段・段階・アンケート

→:マラソン大会で兄は1位、弟は4位になった。

順序、大小は評価ができるが、間隔(差)には意味がないもの。

「名義尺度」

「名義尺度」は「区別分類に利用するための尺度」です。

例:電話番号、郵便番号、性別、部署など

→:経理部を「1」総務部を「2」営業部を「3」とする。

順序、大小、間隔(差)には意味がありません。

これらは次の関係があります。

尺度大小関係加算・減算乗算・除算
比例尺度
間隔尺度
順序尺度
名義尺度

「データの表現形式」による分類

データの表現形式とはファイルの形式に近いです。表現形式の違いには次のものがあります。「構造化データ」「非構造化データ」

  • 「構造化データ」…表形式のデータ
  • 「非構造化データ」…画像や音声などのデータ

「構造化データ」はデータの分析に用いやすいデータで、「非構造化データ」はデータ分析前に数値化する必要があります。

「データの所有者」による分類

データは「自分で集めたもの」と「他人が集めたもの」に分けることができます。このうち自分が集めたオリジナルのデータを「1次データ」といい、他人が集めたデータ(世の中に公開されているデータなど)を「2次データ」といいます。

ほわほわ

2次データを利用する場合は「クリエイティブ・コモンズ・ライセンス」について注意する必要があります。また既に加工済みのデータであるかも注意して利用します(加工済みのデータを3次データと呼んだりします)。

1次データは収集に大きなコストがかかります。このため価値はとても高いものになります。

2次データや3次データなどのうち「オープンデータ」については別の記事で扱います。

今回は以上となります。

ブックマークのすすめ

「ほわほわぶろぐ」を常に検索するのが面倒だという方はブックマークをお勧めします。ブックマークの設定は別記事にて掲載しています。

「お気に入り」の登録・削除方法【Google Chrome / Microsoft Edge】| 現役エンジニア&プログラミングスクール講師「お気に入り」の登録・削除方法【Google Chrome / Microsoft Edge】について解説している記事です。削除方法も掲載しています。...
【パソコン選び】失敗しないための重要ポイント | 現役エンジニア&プログラミングスクール講師【パソコン選び】失敗しないための重要ポイントについての記事です。パソコンのタイプと購入時に検討すべき点・家電量販店で見かけるCPUの見方・購入者が必要とするメモリ容量・HDDとSSDについて・ディスプレイの種類・バッテリーの持ち時間や保証・Officeソフト・ウィルス対策ソフトについて書いています。...
RELATED POST
07-データサイエンス

データサイエンス(Part.1)|データサイエンスの概要 | 現役エンジニア&プログラミングスクール講師

2023年11月25日
プログラミング学習 おすすめ書籍情報発信 パソコン初心者 エンジニア希望者 新人エンジニア IT業界への就職・転職希望者 サポートサイト Programming learning Recommended schools Recommended books Information dissemination Computer beginners Prospective engineers New engineers Prospective job seekers in the IT industry Support site
07-データサイエンス

データサイエンス| まとめ | 現役エンジニア&プログラミングスクール講師

2023年12月4日
プログラミング学習 おすすめ書籍情報発信 パソコン初心者 エンジニア希望者 新人エンジニア IT業界への就職・転職希望者 サポートサイト Programming learning Recommended schools Recommended books Information dissemination Computer beginners Prospective engineers New engineers Prospective job seekers in the IT industry Support site
07-データサイエンス

データサイエンス(Part.3)|データ分析のプロセス1(課題と仮説の設定方法) | 現役エンジニア&プログラミングスクール講師

2023年12月22日
プログラミング学習 おすすめ書籍情報発信 パソコン初心者 エンジニア希望者 新人エンジニア IT業界への就職・転職希望者 サポートサイト Programming learning Recommended schools Recommended books Information dissemination Computer beginners Prospective engineers New engineers Prospective job seekers in the IT industry Support site
07-データサイエンス

データサイエンス(Part.2)|データ分析の基本プロセス | 現役エンジニア&プログラミングスクール講師

2023年11月27日
プログラミング学習 おすすめ書籍情報発信 パソコン初心者 エンジニア希望者 新人エンジニア IT業界への就職・転職希望者 サポートサイト Programming learning Recommended schools Recommended books Information dissemination Computer beginners Prospective engineers New engineers Prospective job seekers in the IT industry Support site