クラスタ化データの中央値を計算する方法

著者: Peter Berry
作成日: 16 Aug. 2021
更新日: 1 J 2024
Anonim
【機械学習入門】Pythonで機械学習を実装したい人がはじめに見る動画 (教師なし学習)
ビデオ: 【機械学習入門】Pythonで機械学習を実装したい人がはじめに見る動画 (教師なし学習)

コンテンツ

中央値は一連の順序付けされたデータの中間点です。たとえば、セット(2,4,7,9,10)の中央値は7です。順序付けされたデータは、データ損失の各ポイントの正確な詳細とともにカテゴリに集計されます。したがって、正確な中央値は、クラスタ化されたデータだけからは知ることができません。しかし、各区間のデータ数がわかっていれば、どれが「中間範囲」であるか、つまり中央値である点を含むものを判断できます。中点データ点が均等に分布しているという仮定に基づいて、式によって中央値推定をさらに改良することができます。


説明書

データグループの中央値を計算する方法を学ぶのは簡単な作業です。 (Hemera Technologies / AbleStock.com / Getty Images)
  1. 値がまだない場合は、間隔を空けてグループ化します。どの区間に中間点を含めるべきかを決定します。

    教訓的な目的のために、データセット(1,2,4,5,6,7,7,7,9)を考えます。ここでの中央値は6です。たとえば、セットを4に等しい幅にグループ化できます。その場合、それらの頻度分布は、例えば、1〜4:3 5〜8:5 9〜12:1であり得る。非プールデータにおいて、中央値は明らかにカテゴリ5〜8にある。元のデータセットを見なくてもそのことを言えます。

  2. ミッドレンジより上のデータポイント数とデータポイントの合計数の半分の差を計算します。

    述べられていることによると、これは9/2 - 3 = 1.5に等しい。この計算では、中央値から中央値までの距離を推定します。

  3. 中範囲のポイント数で割ります。

    例を続けると、1.5 / 5 = 0.3である。これは、中央値がどれだけ中央の範囲にあるかの比率を与えます。

  4. 上記で得られた値に中範囲の幅を掛けます。

    例を続けると、0.3×4 = 1.2である。これにより、範囲内の比率が実際のデータ増分に変換されます。

  5. 上記の結果を中間範囲と下限範囲の間の値に加算します。

    平均値と下限値の間のカットは4.5なので、式4.5 + 1.2 = 5.7が得られ、その結果は正解の6に丸められます。

どうやって

  • 実際、上記の計算は式 "L +(n / 2 - c)/ fxw"と同じです。ここで、Lは中間区間と次の下位区間の間の数、nはデータ点の総数です。 cはミッドレンジより下のドットの総数、fはミドルレンジのデータポイントの数、そしてwは幅です。