コンテンツ
不一致とは、他の値とはかけ離れたデータセット内の値です。不一致は、実験または測定のエラーによって引き起こされる可能性があります。最初のケースでは、統計分析を実行する前に外れ値を特定し、他のデータからそれらを削除して、結果に影響を与えないようにすることが望ましい場合があります。不一致を特定する最も簡単な方法は、四分位法を使用することです。
ステップ1
昇順でデータをリストします。データセット{4、5、2、3、15、3、3、5}を考えます。順序付けられたデータセットの例は、{2、3、3、3、4、5、5、15}です。
ステップ2
中央値を見つけます。これは中央の数字で、メジャーハーフとマイナーハーフを分けます。データの数が偶数の場合は、2つの平均を計算する必要があります。例:引用されたデータセットでは、中点は3と4なので、中央値は(3 + 4)/ 2 = 3.5です。
ステップ3
75%の最小値と25%の最大値の間でグループを分割する上位四分位数Q2のデータポイントを見つけます。データセットが偶数の場合、四分位数の周りの平均2ポイント。前の例では:(5 + 5)/ 2 = 5。
ステップ4
最小25%、最大25%を最大75%から分離するデータポイントであるQ1を見つけます。データセットが偶数の場合、四分位数の周りの平均2ポイント。例では:(3 + 3)/ 2 = 3。
手順5
上四分位数から下四分位数を減算して、四分位範囲、IQを取得します。例では、Q2-Q1 = 5-3 = 2。
手順6
四分位範囲に1.5を掛けます。結果に上位の四分位数を加算し、下位の四分位数を減算します。これらの値の範囲外のデータポイントは、わずかな差異です。与えられた例の場合:1.5 x 2 = 3. 3-3 = 0および5 +3 = 8したがって、0未満または8を超える値は、わずかな差異になります。つまり、15はわずかな不一致と見なされます。
手順7
四分位範囲を3で乗算します。上位四分位数に追加し、下位四分位を減算します。これらの値の範囲外のデータポイントは、極端な不一致です。与えられた例では、3 x 2 =6。3-6= -3および5 + 6 =11。したがって、-3未満または11より大きい値は、極端な不一致です。つまり、15は極端な不一致と見なされます。