Ok, jadi mari kita menganalisis contoh anak mengelompokkan mainannya.
Bayangkan anak hanya memiliki 3 mainan:
- sebuah bola sepak biru
- freesbe biru
- kubus hijau (ok mungkin itu bukan mainan paling menyenangkan yang dapat Anda bayangkan)
Mari kita lakukan hipotesis awal berikut mengenai bagaimana mainan dapat dibuat:
- Warna yang mungkin adalah: merah, hijau, biru
- Bentuk yang mungkin adalah: lingkaran, persegi, segitiga
Sekarang kita dapat memiliki (num_colors * num_shapes) = 3 * 3 = 9 kemungkinan cluster.
Bocah itu akan mengelompokkan mainan sebagai berikut:
- CLUSTER A) berisi bola biru dan freesbe biru, karena warna dan bentuknya sama
- CLUSTER B) berisi kubus hijau super lucu
Hanya menggunakan 2 dimensi ini (warna, bentuk) kami memiliki 2 cluster yang tidak kosong: jadi dalam kasus pertama ini 7/9 ~ 77% dari ruang kami kosong.
Sekarang mari kita tambahkan jumlah dimensi yang harus dipertimbangkan anak. Kami juga melakukan hipotesis berikut mengenai bagaimana mainan dapat dibuat:
- Ukuran mainan dapat bervariasi antara beberapa sentimeter hingga 1 meter, dalam langkah sepuluh sentimeter: 0-10cm, 11-20cm, ..., 91cm-1m
- Berat mainan dapat bervariasi dengan cara yang sama hingga 1 kilogram, dengan langkah 100 gram: 0-100g, 101-200g, ..., 901g-1kg.
Jika kami ingin mengelompokkan mainan SEKARANG, kami memiliki (num_colors * num_shapes * num_sizes * num_weights) = 3 * 3 * 10 * 10 = 900 kemungkinan cluster.
Bocah itu akan mengelompokkan mainan sebagai berikut:
- CLUSTER A) berisi bola sepak biru karena berwarna biru dan berat
- CLUSTER B) berisi freesbe biru karena biru dan terang
- CLUSTER C) berisi kubus hijau super lucu
Menggunakan 4 dimensi saat ini (bentuk, warna, ukuran, bobot) hanya 3 cluster yang tidak kosong: jadi dalam hal ini 897/900 ~ 99,7% dari ruang kosong.
Ini adalah contoh dari apa yang Anda temukan di Wikipedia ( https://en.wikipedia.org/wiki/Curse_of_dimensionality ):
... ketika dimensionality meningkat, volume ruang meningkat begitu cepat sehingga data yang tersedia menjadi jarang.
Sunting: Saya tidak yakin saya bisa benar-benar menjelaskan kepada seorang anak mengapa jarak kadang-kadang salah dalam ruang dimensi tinggi, tetapi mari kita coba melanjutkan dengan contoh anak dan mainannya.
Pertimbangkan hanya 2 fitur pertama {warna, bentuk} yang semua orang setuju bahwa bola biru lebih mirip dengan freesbe biru daripada dengan kubus hijau.
Sekarang mari kita tambahkan 98 fitur lainnya {katakan: ukuran, berat, day_of_production_of_the_toy, material, kelembutan, day_in_which_the_toy_was_bought_by_daddy, price etc}: well, bagi saya akan semakin sulit untuk menilai mainan mana yang mirip.
Begitu:
- Sejumlah besar fitur dapat tidak relevan dalam perbandingan kemiripan tertentu, yang mengarah ke korupsi rasio sinyal-ke-noise.
- Dalam dimensi tinggi, semua contoh "mirip".
Jika Anda mendengarkan saya, kuliah yang baik adalah "Beberapa Hal Berguna untuk Diketahui tentang Pembelajaran Mesin" ( http://homes.cs.washington.edu/~pedrod/papers/cacm12.pdf ), paragraf 6 khususnya menyajikan ini semacam alasan.
Semoga ini membantu!