目標

基本統計量について理解する

基本統計量

基本統計量(descriptive statistics)とは、データの分布を短い数値で要約する指標ことです。「どのあたりに集中しているか(位置)」「どのくらい散らばっているか(ばらつき)」「形はどうか(歪み・尖り)」を手早く把握し、次の分析(相関・回帰・検定)や意思決定の土台にします。標本から計算するため、母集団の性質を推定する推定量としても使われます。

何を「要約」したいのかで、何を利用するかが変わる

  • 位置(中心):データの「代表値」(平均・中央値・最頻値 など)
  • 散らばり(ばらつき):平均からどれくらい離れているか(分散・標準偏差・IQR など)
  • 形(分布の形状):歪みや尖り(歪度・尖度)
  • 比率・構成:カテゴリの割合、度数

データの型で使える指標が変わります。

  • 名義(カテゴリ)→最頻値・構成比
  • 順位→中央値・分位点
  • 間隔・比率(連続)→平均・分散・相関…

代表値(位置の尺度)

平均(Arithmetic Mean)

最もよく使う代表値。外れ値に弱い

重み付き平均

普通の平均は、すべてのデータを同じ重要度(重み)で扱い、重み付き平均は、各データに 重要度や比率(重み, weight) をつけて平均を計算します。

数学 90点(配点50%)、英語 70点(配点30%)、理科 80点(配点20%)

中央値(Median)

データを 小さい順に並べたときの中央の値外れ値に強いロバストな代表値。

例:データ:2,3,5,8,100

  • 平均:23.6(100の影響が大きい)
  • 中央値:5(真ん中の値、典型的)

「ロバスト(robust)」とは「外れ値や誤差、仮定のズレに強く、安定している」という意味です。ロバストな手法は、データに多少のノイズや外れ値があっても、結果が大きく変わらないという特徴があります。

最頻値(Mode)

データの中で 最も多く出現する値で「度数が最大の値」といいます。名義尺度でも利用できます。

データ:2,3,3,5,8,8,8,100

  • 最頻値:8(3回出現 → 最も多い)
  • 中央値:5(並べると真ん中)
  • 平均:16.1(外れ値100の影響あり)

「一番よく出てくる値」=「多数派」や「人気のある選択肢」を示し、数値データだけでなく、アンケート結果(例:「好きな色」)の集計などでも使えます。データによっては 最頻値が複数ある(多峰性分布) こともあります。

幾何平均(Geometric Mean)・調和平均(Harmonic Mean)

幾何平均n 個のデータ x1,x2,…,xnの幾何平均は:

例:ある投資が3年間で「+10%」「+20%」「-10%」の成長率を記録した場合の幾何学平均は次の通りです。

特徴:比率や成長率の平均を表すときに有効で、値がすべて正の場合に利用します。外れ値の影響は算術平均より小さいのが特徴です

調和平均n 個のデータ x1,x2,…,xnの調和平均は:

例:車がある距離を「行きは60km/h」「帰りは40km/h」で移動した場合の調和平均は次の通りです。

※単純平均だと「50km/h」

次のように其々の平均を使い分けます。

  • 幾何平均:積や比率・成長率の平均。
  • 調和平均:速度や効率など、逆数型の平均。
  • 算術平均:単純な「足して割る」平均。

切断平均(Trimmed Mean)・Winsor化平均(Winsorized Mean)

切断平均:データを小さい順に並べて、上下の一定割合(または個数)のデータを削除してから算術平均を計算する方法。

例:データ:1,2,3,4,100

10%両側切断平均(上位1個・下位1個を削除) = (2+3+4)/3 = 3

※通常の平均 = (1+2+3+4+100)/5 = 22

特徴:外れ値の影響を減らすために使われます。

Winsor化:データを小さい順に並べて、上下の一定割合(または個数)のデータを削除せずに、境界の値で置き換える方法。

例:データ:1,2,3,4,100

※上位1個(100)を削除せず「4」に置き換える。
※下位1個(1)を「2」に置き換える
→ Winsor化データ = 2,2,3,4,4

Winsor化平均 = (2+2+3+4+4)/5 = 3

特徴:外れ値を完全に捨てず、極端な値を「近い値」に変換します。切断平均よりデータの情報を残すが、外れ値の影響を抑えることができます。特に標本数が少ないときに安定した推定ができるのが特徴です

ばらつき(散布の尺度)

分散(Variance)「母分散」「標本分散」「不偏分散」

分散:データの「散らばり具合」を表す指標です。平均からどれだけ離れているかを二乗して平均をとります。

母分散:全体からの分散(全てのデータが揃っている)

例:母集団データ:2,4,4,4,5,5,7,9

1.母平均の算出

2.偏差の二乗を合計

3.母分散の算出

標本分散:サンプルからの推定値

例:母集団データ:2,4,4,4,5,5,7,9(この中からランダムにいくつかを抽出してばらつきを確認する)

1.標本平均の算出

2.偏差平方和

3.標本分散(N=4)

不偏分散:標本分散のバイアスを補正したもので、分母を n−1 とすることで、母分散の期待値と一致する。

上の標本分散で分母を n-1 としたとき、

標準偏差(Standard Deviation)(不偏推定(Unbiased Variance))

標準偏差:分散の平方根。元のデータと同じ単位でばらつきを直感的に示します。

※下の式は母集団の場合

不偏推定:母集団の真の値(母数)を推定するとき、標本から計算した値に偏り(バイアス)がある場合があります。その偏りを補正して「平均的に正しい推定値」を得る方法を不偏推定といいます。

※標本分散は、母分散より小さめに出やすいので、分母を1引いて補正し「不偏分散」とします。標準偏差については、不偏分散の平方根を用いるのが一般的ですが、これは厳密な意味で不偏推定にはなりません。

不偏分散(n−1)は母分散の不偏推定量(ベッセル補正)。

  • 母分散 → (平方根)→ 母標準偏差(真の値)
  • 標本分散 → (平方根)→ 標本標準偏差(標本の散らばり)
  • 不偏分散 → (平方根)→ 不偏標準偏差(慣習的にそう呼ぶが厳密には不偏推定ではない)
種類分母分散標準偏差
母標準偏差N=84.002.00
標本標準偏差n=86.502.55
不偏標準偏差n−1=78.672.94

平均絶対偏差(MAD around mean)

平均絶対偏差(MAD)は、データが平均からどのくらい離れているかを「絶対値」で測り、その平均をとったものです。

例:データ:2,4,4,4,5,5,7,9
平均 = 5

  • 各偏差の絶対値:|2 – 5|,|4 – 5|,|4 – 5|,|4 – 5|,|5 – 5|,|5 – 5|,|7 – 5|,|9 – 5|
    →3,1,1,1,0,0,2,4
  • 合計 = 12
  • 平均絶対偏差:12 / 8 = 1.5

標準偏差は「二乗」するので外れ値の影響を強く受けますが、平均絶対偏差は「絶対値」なので外れ値の影響が小さく、外れ値に強い(ロバスト)特徴があります。
※ 中央値を基準にする場合もあります。(その場合は「中央値絶対偏差(Median Absolute Deviation)」と呼び、さらに外れ値に強くなります)。

四分位範囲(IQR)

四分位範囲(IQR)は、データを小さい順に並べて、下位25%の位置の値を第1四分位数(Q1)とし、下位75%の位置の値を第3四分位数(Q3)としたとき、IQR=Q3−Q1でデータの 真ん中50%がどのくらい広がっているか を示す指標です。

例:データ:2,4,4,4,5,5,7,9

  1. 並び替え済み(すでに昇順)
  2. Q1(下位25%の位置) = 4
  3. Q3(下位75%の位置) = 6(実際は5と7の間で 6)
  4. IQR = 6 − 4 = 2

👉 データの真ん中50%は「4から6の範囲」にある。

特徴

  • 外れ値にとても強い(ロバストな尺度)。
  • 「中央値の周りにどれくらいデータが集中しているか」を把握できる。
  • 箱ひげ図(box plot)の箱の高さ(縦幅)が IQR。

外れ値の検出には、次のようなルールが用いられます。

よく使われるルール:

  • 外れ値の下限 = Q1 − 1.5 × IQR
  • 外れ値の上限 = Q3 + 1.5 × IQR

👉 この範囲から外れる値を「外れ値」と判定することが多いです。

ロバストMAD(Median Absolute Deviation)

ロバストMADは中央値からのズレの中央値のことで、標準偏差や平均絶対偏差よりも外れ値の影響を受けにくいという特徴があります。これを利用して、データの外れ値の検索に利用されたりします。

正規分布に基づく「ロバストな標準偏差の代替」として使う場合、次の補正係数(1.4826)を掛けます。

例:データ:2,4,4,4,5,5,7,9

  1. 中央値 = 4.5
  2. 各値との差の絶対値:2.5,0.5,0.5,0.5,0.5,0.5,2.5,4.5
  3. その中央値 = 0.5

👉 MAD = 0.5:標準偏差(≈2.0)と比べるとずっと小さく、外れ値に左右されにくいです。

変動係数(Coefficient of Variation, CV)

変動係数(CV)は、データの 平均に対する標準偏差の比率 を表す指標です。単位が違う指標の相対ばらつき比較に利用されます(平均が0付近だと不安定となります)。

特徴:平均値が大きいデータと小さいデータでも、公平に散らばりを比較できます。平均に対してどの程度のばらつきがあるかを割合で示し、「%」で表すことも多いです。

例:
データA: 平均 100, 標準偏差 10 → CVA=10/100=0.1=10%
データB: 平均 5, 標準偏差 2 → CVB=2/5=0.4=40%

👉 標準偏差だけ見ると A の方が大きいですが、CVで比較すると B の方が「相対的に散らばりが大きい」ことがわかります。

用途

  • 異なる単位・スケールのデータ比較
    例:売上(万円単位)と利益率(%)など
  • リスク評価(金融・投資)
    投資リターンの平均に対して、どのくらいリスク(変動)があるかを見る
  • 測定の精度管理(工学・医療)
    計測データの安定性を判断する基準として利用

平均が 0 に近い(分母が 0 に近い)とCVが極端に大きくなります
→これによって、データのばらつきが「相対的にとても大きい」と評価されますが、実際には「平均が小さい」ことが原因で数値が不安定となります。

平均が負の値になる場合、解釈が難しくなります。
→CVの式には「平均値」がそのまま入るので、分母が負だと CV も負になります。そのため、「ばらつきの大きさ」を表す指標なのに、直感的な解釈が難しくなります。

範囲(Range)

範囲(Range)は、最大値と最小値の差でデータの広がりを表す最もシンプルな指標です。

例:データ:2,4,4,4,5,5,7,9
Range = 9 − 2 = 7

特徴

  • 計算が非常に簡単で直感的
  • 外れ値に非常に弱い
  • データの「端」しか見ていない

👉 実務では単体では使わず、IQRや標準偏差と併用するのが基本です。

形(分布の形状)

歪度(Skewness)

分布の左右非対称性を表す指標です。

  • 正の歪み(右裾が長い)
    • 平均 > 中央値
    • 例:所得分布、売上分布
  • 負の歪み(左裾が長い)
    • 平均 < 中央値

特徴

  • 外れ値の方向を把握できる
  • 平均と中央値のズレの理由がわかる

👉 強い歪みがある場合:

  • 対数変換
  • Box-Cox変換
    などを検討

尖度(Kurtosis)

分布の尖り具合・裾の重さを表します。

  • レプトカート(尖っている・裾が重い)
    • 外れ値が出やすい
  • プラティカート(平たい)
    • データが広く分散

※正規分布の尖度を基準(=3 or excess=0)として比較

特徴

  • 外れ値の出やすさを示唆
  • リスク分析(金融など)で重要

形状が大きく崩れていたら、平均+標準偏差だけの要約に頼らない(分位点や箱ひげ図も併用)。

分位点・百分位点(Quantiles/Percentiles)

分位点は、データを小さい順に並べたときの位置情報です。

  • Q1(25%)
  • Q2(50%)=中央値
  • Q3(75%)

一般化すると:Qp​:下から p% の位置。例:四分位 Q1,Q2(=median),Q3​

実務でよく使う分位

  • 90%点:上位10%の閾値
  • 95%点:リスク管理
  • 99%点:異常検知

90%・95% などの上位分位は、SLAや在庫バッファ設計に実務で有用。


活用例

  • SLA(サービス品質)
    • 「95%のリクエストは1秒以内」
  • 在庫管理
    • 「需要の95%をカバーする在庫量」

👉 平均よりも現実的な意思決定に強い

標準化とスケーリング

zスコア(標準化)

意味:平均から何標準偏差離れているか

特徴

  • 単位を消せる
  • 異なる指標を比較できる
  • 多変量解析の前処理で必須

異なる単位の変数を比較/機械学習の前処理に。

外れ値に敏感(弱い) → 対策としてロバスト標準化(中央値とMAD)も選択肢。

最小最大スケーリング:0–1 に収めたいとき(ニューラルネットなど)

特徴

  • 0〜1に収まる
  • NNや距離ベース手法で有効

注意

  • 外れ値の影響を強く受ける

標本 vs 母集団・標準誤差(SE)

標本統計量

  • 標本平均
  • 標本分散

👉 母集団を推定するための値

標準誤差(Standard Error)

意味:

👉 「推定のブレ(不確かさ)」

特徴

  • サンプル数が増えるほど小さくなる
  • 推定の信頼性を示す

区間推定(Confidence Interval)

👉 「真の平均がこの範囲に入る確率が95%」

※厳密には:
「同じ手続きを繰り返したとき95%が当たる」

カテゴリ変数の基本統計量

度数・構成比

例:

  • 男性:60%
  • 女性:40%

最頻カテゴリ

最も多いカテゴリ(Mode)

エントロピー(Entropy)

カテゴリのばらつき・不確実性を表す指標

特徴

  • 高い → バラバラ
  • 低い → 偏っている

👉 マーケ・推薦システムで重要

グループ別集計・プーリング

グループ平均・分散

例:

  • 店舗別売上
  • 年代別購買額

👉 セグメント理解の基本

プールした分散(2群の例)

2つのグループの分散を統合:

用途

  • t検定
  • 分散が等しいと仮定する場合

ブックマークのすすめ

「ほわほわぶろぐ」を常に検索するのが面倒だという方はブックマークをお勧めします。ブックマークの設定は別記事にて掲載しています。

「お気に入り」の登録・削除方法【Google Chrome / Microsoft Edge】「お気に入り」の登録・削除方法【Google Chrome / Microsoft Edge】について解説している記事です。削除方法も掲載しています。...
【パソコン選び】失敗しないための重要ポイント | 現役エンジニア&プログラミングスクール講師【パソコン選び】失敗しないための重要ポイントについての記事です。パソコンのタイプと購入時に検討すべき点・家電量販店で見かけるCPUの見方・購入者が必要とするメモリ容量・HDDとSSDについて・ディスプレイの種類・バッテリーの持ち時間や保証・Officeソフト・ウィルス対策ソフトについて書いています。...