Saya tidak mengerti pertanyaan sepenuhnya. Umumnya sampel yang lebih besar akan menghasilkan (misalnya) klasifikasi yang lebih baik. Kecuali lebih besar berarti pengamatan kualitas buruk. Sampel kecil akan membuat banyak model tidak berguna. Misalnya karena model berbasis pohon adalah semacam pendekatan "divde and conquer" efisiensinya sangat tergantung pada ukuran sampel pelatihan.
Di sisi lain, jika Anda tertarik dalam pembelajaran statistik dalam dimensi tinggi, saya pikir perhatian Anda lebih terkait dengan kutukan dimensi. Jika ukuran sampel Anda "kecil" dan ruang fitur Anda berdimensi "tinggi", data Anda akan berperilaku seolah-olah jarang dan sebagian besar algoritma akan mengalami kesulitan untuk mencoba memahaminya. Mengutip John A. Richards dalam Analisis Gambar Digital Penginderaan Jauh:
Pengurangan dan Pemisahan Fitur
Biaya klasifikasi meningkat dengan jumlah fitur yang digunakan untuk menggambarkan vektor piksel dalam ruang multispektral - yaitu dengan jumlah pita spektral yang terkait dengan suatu piksel. Untuk pengklasifikasi seperti prosedur parallelepiped dan jarak minimum ini adalah peningkatan linier dengan fitur; namun untuk klasifikasi kemungkinan maksimum, prosedur yang paling sering disukai, kenaikan biaya dengan fitur kuadratik. Oleh karena itu masuk akal secara ekonomis untuk memastikan bahwa tidak ada fitur lebih dari yang diperlukan digunakan saat melakukan klasifikasi. Bagian 8.2.6 menarik perhatian pada jumlah piksel pelatihan yang dibutuhkan untuk memastikan bahwa estimasi yang dapat diandalkan dari tanda tangan kelas dapat diperoleh. Secara khusus, jumlah piksel pelatihan yang dibutuhkan meningkat dengan jumlah pita atau saluran dalam data. Untuk data dimensi tinggi, seperti itu dari spektrometer pencitraan, persyaratan itu menghadirkan tantangan yang cukup dalam praktiknya, sehingga menjaga jumlah fitur yang digunakan dalam klasifikasi menjadi sesedikit mungkin adalah penting jika hasil yang dapat diandalkan diharapkan dari sejumlah piksel pelatihan yang terjangkau. Fitur yang tidak membantu diskriminasi, dengan berkontribusi sedikit pada pemisahan kelas spektral, harus dibuang. Penghapusan fitur yang paling tidak efektif disebut sebagai pemilihan fitur, ini menjadi salah satu bentuk pengurangan fitur. Yang lain adalah mengubah vektor piksel menjadi satu set koordinat baru di mana fitur yang dapat dihapus dibuat lebih jelas. Kedua prosedur tersebut dibahas secara terperinci dalam bab ini. jadi menjaga jumlah fitur yang digunakan dalam klasifikasi sesedikit mungkin adalah penting jika hasil yang dapat diandalkan diharapkan dari jumlah piksel pelatihan yang terjangkau. Fitur yang tidak membantu diskriminasi, dengan berkontribusi sedikit pada pemisahan kelas spektral, harus dibuang. Penghapusan fitur yang paling tidak efektif disebut sebagai pemilihan fitur, ini menjadi salah satu bentuk pengurangan fitur. Yang lain adalah mengubah vektor piksel menjadi satu set koordinat baru di mana fitur yang dapat dihapus dibuat lebih jelas. Kedua prosedur tersebut dibahas secara terperinci dalam bab ini. jadi menjaga jumlah fitur yang digunakan dalam klasifikasi sesedikit mungkin adalah penting jika hasil yang dapat diandalkan diharapkan dari jumlah piksel pelatihan yang terjangkau. Fitur yang tidak membantu diskriminasi, dengan berkontribusi sedikit pada pemisahan kelas spektral, harus dibuang. Penghapusan fitur yang paling tidak efektif disebut sebagai pemilihan fitur, ini menjadi salah satu bentuk pengurangan fitur. Yang lain adalah mengubah vektor piksel menjadi satu set koordinat baru di mana fitur yang dapat dihapus dibuat lebih jelas. Kedua prosedur tersebut dibahas secara terperinci dalam bab ini. harus dibuang. Penghapusan fitur yang paling tidak efektif disebut sebagai pemilihan fitur, ini menjadi salah satu bentuk pengurangan fitur. Yang lain adalah mengubah vektor piksel menjadi satu set koordinat baru di mana fitur yang dapat dihapus dibuat lebih jelas. Kedua prosedur tersebut dibahas secara terperinci dalam bab ini. harus dibuang. Penghapusan fitur yang paling tidak efektif disebut sebagai pemilihan fitur, ini menjadi salah satu bentuk pengurangan fitur. Yang lain adalah mengubah vektor piksel menjadi satu set koordinat baru di mana fitur yang dapat dihapus dibuat lebih jelas. Kedua prosedur tersebut dibahas secara terperinci dalam bab ini.
Yang berarti masalahnya dua kali lipat, menemukan fitur yang relevan dan ukuran samp yang Anda sebutkan. Sampai sekarang Anda dapat memuat buku secara gratis jika Anda mencarinya di google.
Cara lain untuk membaca pertanyaan Anda yang sangat menarik bagi saya adalah: dalam pembelajaran yang diawasi Anda hanya dapat benar-benar memvalidasi model Anda pada data uji dengan validasi silang dan apa yang tidak. Jika sampel berlabel tempat Anda memperoleh kereta / sampel uji tidak mewakili alam semesta Anda dengan baik, hasil validasi mungkin tidak berlaku untuk alam semesta Anda. Bagaimana Anda bisa mengukur keterwakilan sampel berlabel Anda?