Asumsi awal tentang pasangan , , sering dibuat dalam statistik dan pembelajaran mesin. Terkadang karena alasan yang baik, terkadang karena kenyamanan dan kadang-kadang hanya karena kita biasanya membuat asumsi ini. Untuk menjawab dengan memuaskan jika asumsi itu benar-benar diperlukan, dan apa konsekuensinya dari tidak membuat asumsi ini, saya akan dengan mudah akhirnya menulis buku (jika Anda dengan mudah akhirnya melakukan sesuatu seperti itu). Di sini saya akan mencoba memberikan gambaran singkat tentang apa yang saya temukan sebagai aspek paling penting.(Xi,yi)i=1,…,N
Asumsi mendasar
Mari kita asumsikan bahwa kita ingin mempelajari model probabilitas diberikan , yang kita sebut . Kami tidak membuat asumsi tentang model ini sebagai priorat, tetapi kami akan membuat asumsi minimal bahwa model seperti itu ada sehinggayXp(y∣X)
- distribusi bersyarat dari diberikan adalah .yiXip(yi∣Xi)
Yang perlu diperhatikan tentang asumsi ini adalah bahwa distribusi bersyarat dari tergantung pada hanya melalui . Inilah yang membuat model berguna, misalnya untuk prediksi. Asumsi tersebut berlaku sebagai konsekuensi dari bagian yang terdistribusi secara identik berdasarkan asumsi iid, tetapi lebih lemah karena kami tidak membuat asumsi tentang .yiiXiXi
Dalam fokus berikut sebagian besar akan pada peran kemerdekaan.
Pemodelan
Ada dua pendekatan utama untuk mempelajari model diberikan . Satu pendekatan dikenal sebagai pemodelan diskriminatif dan yang lainnya sebagai pemodelan generatif .yX
- Pemodelan diskriminatif : Kami memodelkan secara langsung, misalnya model regresi logistik, jaringan saraf, pohon atau hutan acak. The asumsi pemodelan bekerja biasanya akan bahwa 's yang bebas bersyarat dengan ' s, meskipun teknik estimasi mengandalkan subsampling atau bootstrap make paling masuk akal di bawah iid atau asumsi dipertukarkan lemah (lihat di bawah). Tetapi secara umum, untuk pemodelan diskriminatif kita tidak perlu membuat asumsi distribusi tentang . p(y∣X)yiXiXi
- Pemodelan generatif : Kami memodelkan distribusi gabungan, , dari biasanya dengan memodelkan distribusi bersyarat dan marginal distribusi . Kemudian kita menggunakan formula Bayes untuk menghitung . Analisis diskriminan linier dan metode Bayes naif adalah contohnya. The asumsi pemodelan bekerja biasanya akan menjadi asumsi iid.p(X,y)(X,y)p(X∣y)p(y)p(y∣X)
Untuk kedua pendekatan pemodelan, asumsi pemodelan kerja digunakan untuk menurunkan atau mengusulkan metode pembelajaran (atau penduga). Itu bisa dengan memaksimalkan log (kemungkinan) log, meminimalkan risiko empiris atau dengan menggunakan metode Bayesian. Sekalipun asumsi pemodelan yang bekerja salah, metode yang dihasilkan masih dapat memberikan kecocokan masuk akal . p(y∣X)
Beberapa teknik yang digunakan bersama dengan pemodelan diskriminatif, seperti mengantongi (agregasi bootstrap), bekerja dengan mencocokkan banyak model dengan data sampel secara acak dari dataset. Tanpa asumsi iid (atau pertukaran), dataset yang di-resampled tidak akan memiliki distribusi bersama yang serupa dengan dataset asli. Setiap struktur ketergantungan telah menjadi "kacau" oleh resampling. Saya belum memikirkan hal ini secara mendalam, tetapi saya tidak melihat mengapa hal itu seharusnya mematahkan metode ini sebagai metode untuk belajar . Setidaknya tidak untuk metode yang didasarkan pada asumsi independensi kerja. Saya senang dibuktikan salah di sini.p(y∣X)
Batas konsistensi dan kesalahan
Pertanyaan sentral untuk semua metode pembelajaran adalah apakah mereka menghasilkan model yang dekat dengan . Ada literatur teoritis yang luas dalam statistik dan pembelajaran mesin berurusan dengan konsistensi dan batas kesalahan. Tujuan utama dari literatur ini adalah untuk membuktikan bahwa model yang dipelajari dekat dengan ketika adalah besar. Konsistensi adalah jaminan kualitatif, sementara batas kesalahan menyediakan (semi-) kontrol kuantitatif eksplisit kedekatan dan memberikan tingkat konvergensi.p(y∣X)p(y∣X)N
Hasil teoritis semua bergantung pada asumsi tentang distribusi gabungan dari pengamatan dalam dataset. Seringkali asumsi pemodelan kerja yang disebutkan di atas dibuat (yaitu, independensi bersyarat untuk pemodelan diskriminatif dan id untuk pemodelan generatif). Untuk pemodelan diskriminatif, konsistensi dan batas kesalahan akan mensyaratkan bahwa memenuhi kondisi tertentu. Dalam regresi klasik satu syarat seperti itu adalah bahwa untuk , di mana menunjukkan matriks desain dengan barisXi1NXTX→ΣN→∞XXTi. Kondisi yang lebih lemah mungkin cukup untuk konsistensi. Dalam jarang belajar kondisi lain seperti kondisi nilai eigen terbatas, lihat misalnya Pada kondisi yang digunakan untuk membuktikan hasil oracle untuk Lasso . Asumsi iid bersama-sama dengan beberapa asumsi distribusi teknis menyiratkan bahwa beberapa kondisi yang cukup dipenuhi dengan probabilitas besar, dan dengan demikian asumsi iid dapat membuktikan menjadi cukup tetapi bukan asumsi yang diperlukan untuk mendapatkan konsistensi dan batas kesalahan untuk pemodelan diskriminatif.
Asumsi pemodelan kerja independensi mungkin salah untuk salah satu pendekatan pemodelan. Sebagai aturan praktis, kita masih bisa mengharapkan konsistensi jika data berasal dari proses ergodik , dan kita masih bisa mengharapkan beberapa batas kesalahan jika proses pencampuran cukup cepat . Definisi matematis yang tepat dari konsep-konsep ini akan membawa kita terlalu jauh dari pertanyaan utama. Cukup untuk dicatat bahwa ada struktur ketergantungan selain asumsi awal yang metode pembelajarannya dapat dibuktikan berhasil karena cenderung tak hingga.N
Jika kita memiliki pengetahuan yang lebih terperinci tentang struktur ketergantungan, kita dapat memilih untuk mengganti asumsi independensi kerja yang digunakan untuk pemodelan dengan model yang menangkap struktur ketergantungan juga. Ini sering dilakukan untuk deret waktu. Model kerja yang lebih baik dapat menghasilkan metode yang lebih efisien.
Penilaian model
Daripada membuktikan bahwa metode pembelajaran memberikan model mendekati , adalah nilai praktis yang bagus untuk mendapatkan penilaian (relatif) dari "seberapa baik model yang dipelajari adalah". Skor penilaian tersebut dapat dibandingkan untuk dua atau lebih model yang dipelajari, tetapi mereka tidak akan memberikan penilaian absolut tentang seberapa dekat model yang dipelajari dengan . Perkiraan skor penilaian biasanya dihitung secara empiris berdasarkan pemisahan dataset menjadi pelatihan dan dataset pengujian atau dengan menggunakan validasi silang.p ( y ∣ X )p(y∣X)p(y∣X)
Seperti halnya mengantongi, pemisahan acak dari dataset akan "mengacaukan" struktur ketergantungan apa pun. Namun, untuk metode yang didasarkan pada asumsi independensi kerja, asumsi ergodisitas yang lebih lemah daripada yang seharusnya cukup untuk perkiraan penilaian menjadi masuk akal, meskipun kesalahan standar pada perkiraan ini akan sangat sulit untuk muncul.
[ Sunting: Ketergantungan di antara variabel-variabel akan menghasilkan distribusi model yang dipelajari yang berbeda dari distribusi berdasarkan asumsi awal. Estimasi yang dihasilkan oleh validasi silang jelas tidak terkait dengan kesalahan generalisasi. Jika ketergantungannya kuat, kemungkinan besar itu merupakan estimasi yang buruk.]
Ringkasan (tl; dr)
Semua hal di atas adalah dengan asumsi bahwa ada model probabilitas kondisional tetap, . Dengan demikian tidak mungkin ada tren atau perubahan mendadak dalam distribusi bersyarat yang tidak ditangkap oleh .Xp(y∣X)X
Saat mempelajari model diberikan , independensi berperan sebagaiXyX
- asumsi pemodelan kerja yang berguna yang memungkinkan kita untuk mendapatkan metode pembelajaran
- asumsi yang cukup tetapi tidak perlu untuk membuktikan konsistensi dan memberikan batas kesalahan
- asumsi yang cukup tetapi tidak perlu untuk menggunakan teknik pemisahan data acak seperti mengantongi untuk belajar dan validasi silang untuk penilaian.
Untuk memahami dengan tepat apa alternatif untuk iid yang juga mencukupi adalah non-sepele dan sampai batas tertentu subjek penelitian.