標準偏差計算ツール
数値のリストを貼り付けると、カルキュレータは各値に対する平均値、分散、標準偏差(サンプルsでは分母をn−1、集団σでは分母をnとする)、変動係数、およびz値を返します。データがその平均値周りにどの程度分散しているかを把握したい場合に非常に便利であり、すべてのパラメトリック検定を行う前に重要な診断指標となります。
標準偏差の計算方法
-
1
数値を貼り付けます
カンマ、スペースまたは改行で区切られています。非数値の項目はスキップされます。
-
2
平均のXバーが計算されます
合計をカウントで割った値。
-
3
平方偏差が合計されます
sum((x − xバー)²)
-
4
分割して根を取る
サンプル:(n−1)で割り、√を取る。集団:nで割り、√を取る。
サンプルと集団——どちらを用いるべきか
| 使用する集団(n/divisor) | 使用するサンプル(n−1/divisor) |
|---|---|
| あなたが持っているのは全集団です | あなたが持っているのはより大きな集団から抽出されたサンプルです |
| 従業員の全員調査 | 数千人から抽出した20名の顧客を対象としたサンプリング |
| 特定セッションにおける1つのサイコロのすべての10回の投げ結果 | 生産ラインからの測定値 |
n−1の除数(ベッセル補正)を用いる場合、サンプルデータから集団分散の無偏推量が得られる。一方、nを除数として使用すると、真の集団分散が体系的に過小評価される。nが大きい場合にはこの差は小さくなるが、サンプルサイズが小さい場合にはその影響は顕著である。
標準偏差の直感
ある集合の平均が100、標準偏差が15である場合(ほぼ正規分布を仮定すると)、以下の関係が成り立つ:
- **68%**の値が85~115(1標準偏差)の範囲内に含まれています
- **95%**は70~130(2標準偏差)の範囲内
- **99.7%**は55~145(3標準偏差)の範囲内
これが「68–95–99.7の法則」であり、経験則とも呼ばれます。IQスコア、人の身長、および多くの自然な測定値もこの法則にほぼ一致して従っています。
変動係数
CV = SD / 平均値。無次元の分散度の指標であり、平均値が異なるデータセット間の変動性を比較する際に有用である。CVが0.1(10%)の場合、SDは平均値の約10%に相当する。ゼロを超える可能性のあるデータには意味がない。
Zスコア
各値 x に対して:z = (x − 平均) / SD。この値が平均から何標準偏差(SD)以上または以下にあるかを示します。|z| > 2 の場合は通常「外れ値」と見なされますが、|z| > 3 の場合は正規分布データでは非常にまれに見られます。
常見の誤り
- サンプルを使用すべき場面で集団データを使用している場合、サンプルデータセットの変動性が過小評価される。
- **異なる単位からの平均値と標準偏差を混ぜる場合。**常にスケールを確認してください。
- 正規分布のルールを非正規データに適用する。 偏ったデータや多峰データでは、68–95–99.7というヒューリスティック法が適用できなくなる。まずヒストグラムを作成してください。
- 外れ値を無視する場合。 単一の極端値が標準偏差(SD)を3倍に増加させる可能性がある。重尾データに対しては、中央値絶対偏差や四分位範囲といった頑健な指標が存在する。
よくある質問
Excelには2つの関数があります:STDEV(サンプル用、分母はn−1)およびSTDEVP(集団用、分母はn)。使用する関数が目的のサンプルまたは集団の仮定に合致していることを確認してください。
はい——SDの単位は測定値と同じ(cm、ドル、秒)です。分散は平方単位で表されるため、SDの方が読みやすくなります。
サンプルの標準偏差(SD)はn ≥ 2の場合に定義される。n ≈ 30未満の場合は、SD周辺の信頼区間を報告するか、より頑健な代替手法を使用することを検討すべきである。
標準偏差(SD)は依然として定義されています。確率pに対して、SD = √(p × (1−p)) となります。すべての観測値が1であるサンプルでは、観測値の数に関わらず SD = √(0.6 × 0.4) ≈ 0.49 となります。