Saya mengalami kesulitan memahami kutukan dimensi. Secara khusus, saya menemukan itu saat melakukan scikit-learntutorial dengan python. Bisakah seseorang tolong jelaskan yang di bawah ini dengan cara yang lebih sederhana? Maaf saya telah mencoba untuk memahami untuk waktu yang paling lama dan tidak dapat memahami bagaimana mereka muncul dengan perhitungan untuk sejumlah contoh pelatihan untuk mencapai penduga KNN yang efisien?
Berikut penjelasannya:
Agar estimator menjadi efektif, Anda perlu jarak antara titik tetangga menjadi kurang dari beberapa nilai d, yang tergantung pada masalah. Dalam satu dimensi, ini membutuhkan rata-rata n ~ 1 / d poin. Dalam konteks contoh KNN di atas, jika data dijelaskan oleh hanya satu fitur dengan nilai mulai dari 0 hingga 1 dan dengan n pengamatan pelatihan, maka data baru tidak akan lebih jauh dari 1 / n. Oleh karena itu, aturan keputusan tetangga terdekat akan menjadi efisien segera setelah 1 / n kecil dibandingkan dengan skala variasi fitur antara kelas.
Jika jumlah fitur p, Anda sekarang memerlukan n ~ 1 / d ^ p poin. Katakanlah kita membutuhkan 10 poin dalam satu dimensi: Sekarang 10 ^ poin diperlukan dalam dimensi p untuk membuka ruang [0, 1]. Ketika p menjadi besar, jumlah poin pelatihan yang diperlukan untuk penduga yang baik tumbuh secara eksponensial.
EDIT: juga apakah tilde ( ~) seharusnya mewakili perkiraan dalam contoh itu? atau operator python tilde?