Berikut ini menjelaskan apa yang saya coba capai, tetapi mungkin pernyataan masalah alternatif dapat menggambarkan tujuan saya:
aku ingin
bagilah angka-angka berikut ke dalam kelompok-kelompok di mana varians angka-angka dalam setiap kelompok tidak terlalu besar, dan perbedaan antara rata-rata kelompok tidak terlalu kecil
bandingkan distribusi yang diperoleh pada akhirnya dengan yang "sempurna" dan lihat bagaimana "berbeda" dari menjadi sempurna.
Penjelasan awam tentang tujuan
Saya mencoba menghitung distribusi pendapatan , dan menentukan "kurung pendapatan" di setiap populasi. Pengelompokan pendapatan seharusnya menyesuaikan diri berdasarkan data input.
Tujuan saya adalah untuk akhirnya mengukur atau menghitung perbedaan antara tanda kurung pendapatan. Saya berasumsi akan ada banyak tanda kurung, dan ingin melihat seberapa jauh "terpisah" setiap tingkat.
Berikut ini adalah contoh dari pendapatan per jam untuk kumpulan sampel dari populasi 20, dan total pendapatan 3587:
Population= 10 pop=2 population=5 population =3
10, 11,13,14,14,14,14,14,15,20, 40,50 ,90,91,92,93,94 999,999,900
Bagaimana saya bisa menggunakan konsep matematika untuk mengelompokkan, mengurutkan, dan menganalisis data yang bertindak seperti distribusi pendapatan pada populasi tertentu?
Pada akhir perhitungan, saya ingin menentukan distribusi pendapatan berjenjang, di mana distribusi yang sempurna akan terlihat (seperti) seperti ini
(each person makes $10 more per hour than the previous; total is 3587)
89, 99, 109, 119, 129, 139, 149, 159, 169, 179, 189, 199, 209, 219, 229, 239, 249, 259, 269, 279
atau ini:
(evenly distributed groups of people make the same per hour)
(gaps between income groups is consistent and not "too far")
(income total is 3587)
99 99 99 129 129 129 159 159 159 199 199 199 229 229 229 269 269 269
Pertanyaan
Bagaimana saya harus menganalisis kelompok populasi, dan mengukur kesenjangan dengan cara yang akan memberi tahu saya berapa banyak yang dibutuhkan untuk membuatnya lebih seperti dua set model terakhir yang tercantum di atas?
It may seem you are interested in cluster analysis, but the problem with real-life distributions is they are nearly continuous, and hence the straightforward clusterization won't apply.