Berbicara tentang 99 % poin dalam hypercube ' agak menyesatkan karena hypercube mengandung banyak poin. Mari kita bicara tentang volume.
Volume hypercube adalah produk dengan panjang sisinya. Untuk unit hypercube 50 dimensi kita mendapatkan Total volume = 1 × 1 × ⋯ × 150 kali= 150= 1.
Sekarang mari kita mengecualikan batas-batas hypercube dan melihat ' interior ' (saya menempatkan ini dalam tanda kutip karena interior istilah matematika memiliki arti yang sangat berbeda). Kami hanya menyimpan poin x = ( x1, x2, ... , x50) yang memuaskan
0,05 < x1< 0,95 dan 0,05 < x2< 0,95 dan ... dan 0,05 < x50< 0,95.
Berapa volume 'interior' ini? Nah, 'interior' sekali lagi hypercube, dan panjang setiap sisi adalah0,9 (= 0,95 - 0,05 ... membantu membayangkan ini dalam dua dan tiga dimensi). Jadi volumenya adalah VolumeVolume interior = 0,9 × 0,9 × ⋯ × 0,950 kali= 0,950≈ 0,005.
Simpulkan bahwa volume 'batas' (didefinisikan sebagai unit hypercube tanpa 'interior ') adalah 1 - 0,950≈ 0,995.
Ini menunjukkan bahwa 99,5 % dari volume hypercube 50-dimensi terkonsentrasi pada batasnya .
Tindak lanjut: ignatius mengajukan pertanyaan menarik tentang bagaimana ini terhubung dengan probabilitas. Berikut ini sebuah contoh.
Katakanlah Anda datang dengan model (pembelajaran mesin) yang memprediksi harga perumahan berdasarkan 50 parameter input. Semua 50 parameter input independen dan didistribusikan secara merata antara 0 dan 1 .
Katakanlah bahwa model Anda berfungsi dengan baik jika tidak ada parameter input yang ekstrem: Selama setiap parameter input tetap antara 0,05 dan 0,95 , model Anda memprediksi harga perumahan hampir sempurna. Tetapi jika satu atau lebih parameter input ekstrem (lebih kecil dari 0,05 atau lebih besar dari 0,95 ), prediksi model Anda benar-benar mengerikan.
Setiap parameter input yang diberikan ekstrem dengan probabilitas hanya 10 % . Jadi jelas ini adalah model yang bagus, bukan? Tidak! Probabilitas bahwa setidaknya satu dari 50 parameter ekstrem adalah 1 - 0,950≈ 0,995.
Jadi dalam 99,5 % kasus, prediksi model Anda sangat buruk.
Rule of thumb: Dalam dimensi tinggi, pengamatan ekstrem adalah aturan dan bukan pengecualian.