データサイエンス（Part.18）｜基本統計量｜プログラミング学習おすすめ書籍情報発信パソコン初心者エンジニア希望者新人エンジニア IT業界への就職・転職希望者サポートサイト Programming learning Recommended schools Recommended books Information dissemination Computer beginners Prospective engineers New engineers Prospective job seekers in the IT industry Support site

目標
基本統計量
ブックマークのすすめ

目標

基本統計量について理解する

基本統計量

基本統計量（descriptive statistics）とは、データの分布を短い数値で要約する指標ことです。「どのあたりに集中しているか（位置）」「どのくらい散らばっているか（ばらつき）」「形はどうか（歪み・尖り）」を手早く把握し、次の分析（相関・回帰・検定）や意思決定の土台にします。標本から計算するため、母集団の性質を推定する推定量としても使われます。

何を「要約」したいのかで、何を利用するかが変わる

位置（中心）：データの「代表値」（平均・中央値・最頻値など）
散らばり（ばらつき）：平均からどれくらい離れているか（分散・標準偏差・IQR など）
形（分布の形状）：歪みや尖り（歪度・尖度）
比率・構成：カテゴリの割合、度数

データの型で使える指標が変わります。

名義（カテゴリ）→最頻値・構成比
順位→中央値・分位点
間隔・比率（連続）→平均・分散・相関…

代表値（位置の尺度）

平均（Arithmetic Mean）

最もよく使う代表値。外れ値に弱い。

重み付き平均

普通の平均は、すべてのデータを同じ重要度（重み）で扱い、重み付き平均は、各データに 重要度や比率（重み, weight） をつけて平均を計算します。

数学 90点（配点50%）、英語 70点（配点30%）、理科 80点（配点20%）

中央値（Median）

データを 小さい順に並べたときの中央の値。外れ値に強いロバストな代表値。

例：データ：2,3,5,8,100

平均：23.6（100の影響が大きい）
中央値：5（真ん中の値、典型的）

「ロバスト（robust）」とは「外れ値や誤差、仮定のズレに強く、安定している」という意味です。ロバストな手法は、データに多少のノイズや外れ値があっても、結果が大きく変わらないという特徴があります。

最頻値（Mode）

データの中で 最も多く出現する値で「度数が最大の値」といいます。名義尺度でも利用できます。

例

データ：2,3,3,5,8,8,8,100

最頻値：8（3回出現 → 最も多い）
中央値：5（並べると真ん中）
平均：16.1（外れ値100の影響あり）

「一番よく出てくる値」＝「多数派」や「人気のある選択肢」を示し、数値データだけでなく、アンケート結果（例：「好きな色」）の集計などでも使えます。データによっては 最頻値が複数ある（多峰性分布） こともあります。

幾何平均（Geometric Mean）・調和平均（Harmonic Mean）

幾何平均：n 個のデータ x₁,x₂,…,x_nの幾何平均は：

例：ある投資が3年間で「+10%」「+20%」「-10%」の成長率を記録した場合の幾何学平均は次の通りです。

特徴：比率や成長率の平均を表すときに有効で、値がすべて正の場合に利用します。外れ値の影響は算術平均より小さいのが特徴です。

調和平均：n 個のデータ x₁,x₂,…,x_nの調和平均は：

例：車がある距離を「行きは60km/h」「帰りは40km/h」で移動した場合の調和平均は次の通りです。

※単純平均だと「50km/h」

次のように其々の平均を使い分けます。

幾何平均：積や比率・成長率の平均。
調和平均：速度や効率など、逆数型の平均。
算術平均：単純な「足して割る」平均。

切断平均（Trimmed Mean）・Winsor化平均（Winsorized Mean）

切断平均：データを小さい順に並べて、上下の一定割合（または個数）のデータを削除してから算術平均を計算する方法。

例：データ：1,2,3,4,100

10%両側切断平均（上位1個・下位1個を削除） = (2+3+4)/3 = 3

※通常の平均 = (1+2+3+4+100)/5 = 22

特徴：外れ値の影響を減らすために使われます。

Winsor化：データを小さい順に並べて、上下の一定割合（または個数）のデータを削除せずに、境界の値で置き換える方法。

例：データ：1,2,3,4,100

※上位1個（100）を削除せず「4」に置き換える。
※下位1個（1）を「2」に置き換える
→ Winsor化データ = 2,2,3,4,4

Winsor化平均 = (2+2+3+4+4)/5 = 3

特徴：外れ値を完全に捨てず、極端な値を「近い値」に変換します。切断平均よりデータの情報を残すが、外れ値の影響を抑えることができます。特に標本数が少ないときに安定した推定ができるのが特徴です。

ばらつき（散布の尺度）

分散（Variance）「母分散」「標本分散」「不偏分散」

分散：データの「散らばり具合」を表す指標です。平均からどれだけ離れているかを二乗して平均をとります。

母分散：全体からの分散（全てのデータが揃っている）

例：母集団データ：2,4,4,4,5,5,7,9

1．母平均の算出

2．偏差の二乗を合計

3．母分散の算出

標本分散：サンプルからの推定値

例：母集団データ：2,4,4,4,5,5,7,9（この中からランダムにいくつかを抽出してばらつきを確認する）

1．標本平均の算出

2．偏差平方和

3．標本分散（N=4）

不偏分散：標本分散のバイアスを補正したもので、分母を n−1 とすることで、母分散の期待値と一致する。

上の標本分散で分母を n-1 としたとき、

標準偏差（Standard Deviation）（不偏推定（Unbiased Variance））

標準偏差：分散の平方根。元のデータと同じ単位でばらつきを直感的に示します。

※下の式は母集団の場合

不偏推定：母集団の真の値（母数）を推定するとき、標本から計算した値に偏り（バイアス）がある場合があります。その偏りを補正して「平均的に正しい推定値」を得る方法を不偏推定といいます。

※標本分散は、母分散より小さめに出やすいので、分母を１引いて補正し「不偏分散」とします。標準偏差については、不偏分散の平方根を用いるのが一般的ですが、これは厳密な意味で不偏推定にはなりません。

不偏分散（n−1）は母分散の不偏推定量（ベッセル補正）。

母分散 → （平方根）→ 母標準偏差（真の値）
標本分散 → （平方根）→ 標本標準偏差（標本の散らばり）
不偏分散 → （平方根）→ 不偏標準偏差（慣習的にそう呼ぶが厳密には不偏推定ではない）

種類	分母	分散	標準偏差
母標準偏差	N=8	4.00	2.00
標本標準偏差	n=8	6.50	2.55
不偏標準偏差	n−1=7	8.67	2.94

平均絶対偏差（MAD around mean）

平均絶対偏差（MAD）は、データが平均からどのくらい離れているかを「絶対値」で測り、その平均をとったものです。

例：データ：2,4,4,4,5,5,7,9
平均 = 5

各偏差の絶対値：|2 – 5|,|4 – 5|,|4 – 5|,|4 – 5|,|5 – 5|,|5 – 5|,|7 – 5|,|9 – 5|
→3,1,1,1,0,0,2,4
合計 = 12
平均絶対偏差：12 / 8 = 1.5

標準偏差は「二乗」するので外れ値の影響を強く受けますが、平均絶対偏差は「絶対値」なので外れ値の影響が小さく、外れ値に強い（ロバスト）特徴があります。
※ 中央値を基準にする場合もあります。（その場合は「中央値絶対偏差（Median Absolute Deviation）」と呼び、さらに外れ値に強くなります）。