Tentang pentingnya asumsi iid dalam pembelajaran statistik


54

Dalam pembelajaran statistik, secara implisit atau eksplisit, seseorang selalu mengasumsikan bahwa set pelatihan terdiri dari input input / respon yang diambil secara independen dari distribusi gabungan yang sama denganD={X,y}N(Xi,yi) P(X,y)

p(X,y)=p(y|X)p(X)

dan hubungan yang kami coba tangkap melalui algoritma pembelajaran tertentu. Secara matematis, asumsi awal ini menulis:p(y|X)

(Xi,yi)P(X,y),i=1,...,N(Xi,yi) independent of (Xj,yj),ij{1,...,N}

Saya pikir kita semua bisa sepakat bahwa asumsi ini jarang dipenuhi dalam praktik, lihat pertanyaan SE terkait ini dan komentar bijak dari @Glen_b dan @Luca.

Karena itu pertanyaan saya adalah:

Di mana tepatnya asumsi iid menjadi penting dalam praktik?

[Konteks]

Saya menanyakan hal ini karena saya dapat memikirkan banyak situasi di mana asumsi ketat seperti itu tidak diperlukan untuk melatih model tertentu (misalnya metode regresi linier), atau setidaknya satu dapat bekerja di sekitar asumsi awal dan memperoleh hasil yang kuat. Sebenarnya hasil biasanya akan tetap sama, itu bukan kesimpulan bahwa seseorang dapat menggambar yang akan berubah (misalnya heteroskedastisitas dan autokorelasi konsisten estimator HAC dalam regresi linier: idenya adalah untuk menggunakan kembali bobot regresi OLS tua yang baik tetapi untuk mengadaptasi perilaku hingga-sampel dari estimator OLS untuk menjelaskan pelanggaran asumsi Gauss-Markov).

Oleh karena itu dugaan saya adalah bahwa asumsi awal diperlukan untuk tidak dapat melatih algoritma pembelajaran tertentu, tetapi lebih untuk menjamin bahwa teknik seperti cross-validasi memang dapat digunakan untuk menyimpulkan ukuran yang dapat diandalkan dari kemampuan model generalisasi dengan baik , yang adalah satu-satunya hal yang kami tertarik pada akhir hari dalam pembelajaran statistik karena itu menunjukkan bahwa kami memang dapat belajar dari data. Secara intuitif, saya memang dapat memahami bahwa menggunakan validasi silang pada data dependen dapat menjadi bias secara optimis (seperti yang diilustrasikan / dijelaskan dalam contoh menarik ini ).

Bagi saya, iid tidak ada hubungannya dengan pelatihan model tertentu, tetapi semuanya berkaitan dengan generalisasi model itu . Ini tampaknya setuju dengan makalah yang saya temukan oleh Huan Xu et al, lihat "Robustness and Generalizability for Markovian Samples" di sini .

Apakah Anda setuju dengan itu?

[Contoh]

Jika ini dapat membantu diskusi, pertimbangkan masalah menggunakan algoritma LASSO untuk melakukan pemilihan cerdas di antara fitur diberikan sampel pelatihan dengan Selanjutnya kita dapat mengasumsikan bahwa:N ( X i , y i ) i = 1 , . . . , N X i = [ X i 1 , . . . , X i P ]PN(Xi,yi)i=1,...,N

Xi=[Xi1,...,XiP]
  • Input tergantung karenanya menyebabkan pelanggaran asumsi iid (misalnya untuk setiap fitur kita amati seri waktu titik , maka memperkenalkan korelasi-temporal temporal)j=1,. . ,PNXij=1,..,PN
  • Respons bersyarat independen.yi|Xi
  • Kami memiliki .PN

Dengan cara apa pelanggaran asumsi iid dapat menimbulkan masalah dalam kasus itu dengan asumsi kami berencana untuk menentukan koefisien penalti LASSO menggunakan pendekatan validasi silang (pada set data lengkap) + menggunakan validasi silang bersarang untuk mengetahui kesalahan generalisasi dari strategi pembelajaran ini (kita dapat mengabaikan diskusi mengenai pro / kontra yang melekat dari LASSO, kecuali jika itu berguna).λ


1
Bisakah Anda memberikan kerangka referensi yang menarik bagi Anda, sehingga diskusi tidak terlalu luas tentang semua metode. Apakah kita berbicara tentang regresi linier di sini? Atau apakah kita berbicara tentang estimasi titik untuk parameter dengan menggunakan, katakanlah MLE? Atau apakah kita berbicara tentang kerangka kerja CLT?
Greenparker

2
Jika Anda juga mengasumsikan tergantung, maka dalam regresi logistik yang dikenakan sanksi, seseorang akan menghukum kemungkinan log. Jika data tidak independen, maka Anda tidak dapat menuliskan kemungkinan log bersama dan karenanya tidak dapat menyelesaikan masalah optimasi yang terkait. yi
Greenparker

1
Tidak, saya berpikir sebaliknya - jika Anda dengan cepat melompat ke asumsi awal, Anda mungkin gagal memasukkan kelambatan , secara keliru (untuk tujuan seperti ketidakberpihakan, tetapi juga merusak daya prediksi) percaya mereka tidak diperlukan. y
Christoph Hanck

3
Saya tidak setuju bahwa asumsi independensi "umumnya dilanggar". Rangkaian waktu adalah kasus yang sangat khusus - bukan pengecualian dari contoh biasa. Asumsi id memungkinkan Anda untuk menyederhanakan model Anda dan membangun model yang lebih pelit dan sering kali dapat dibuat (misalnya, kasus Anda ditarik secara acak , sehingga dapat dianggap independen).
Tim

2
Dalam contoh, peluru kedua, tidak boleh dianggap bersyarat iid. Mereka dapat dianggap independen secara kondisional, tetapi distribusi kondisional dianggap bergantung pada , dan karenanya berubah dengan . X i iyiXii
NRH

Jawaban:


32

Asumsi awal tentang pasangan , , sering dibuat dalam statistik dan pembelajaran mesin. Terkadang karena alasan yang baik, terkadang karena kenyamanan dan kadang-kadang hanya karena kita biasanya membuat asumsi ini. Untuk menjawab dengan memuaskan jika asumsi itu benar-benar diperlukan, dan apa konsekuensinya dari tidak membuat asumsi ini, saya akan dengan mudah akhirnya menulis buku (jika Anda dengan mudah akhirnya melakukan sesuatu seperti itu). Di sini saya akan mencoba memberikan gambaran singkat tentang apa yang saya temukan sebagai aspek paling penting.(Xi,yi)i=1,,N

Asumsi mendasar

Mari kita asumsikan bahwa kita ingin mempelajari model probabilitas diberikan , yang kita sebut . Kami tidak membuat asumsi tentang model ini sebagai priorat, tetapi kami akan membuat asumsi minimal bahwa model seperti itu ada sehinggayXp(yX)

  • distribusi bersyarat dari diberikan adalah .yiXip(yiXi)

Yang perlu diperhatikan tentang asumsi ini adalah bahwa distribusi bersyarat dari tergantung pada hanya melalui . Inilah yang membuat model berguna, misalnya untuk prediksi. Asumsi tersebut berlaku sebagai konsekuensi dari bagian yang terdistribusi secara identik berdasarkan asumsi iid, tetapi lebih lemah karena kami tidak membuat asumsi tentang .yiiXiXi

Dalam fokus berikut sebagian besar akan pada peran kemerdekaan.

Pemodelan

Ada dua pendekatan utama untuk mempelajari model diberikan . Satu pendekatan dikenal sebagai pemodelan diskriminatif dan yang lainnya sebagai pemodelan generatif .yX

  • Pemodelan diskriminatif : Kami memodelkan secara langsung, misalnya model regresi logistik, jaringan saraf, pohon atau hutan acak. The asumsi pemodelan bekerja biasanya akan bahwa 's yang bebas bersyarat dengan ' s, meskipun teknik estimasi mengandalkan subsampling atau bootstrap make paling masuk akal di bawah iid atau asumsi dipertukarkan lemah (lihat di bawah). Tetapi secara umum, untuk pemodelan diskriminatif kita tidak perlu membuat asumsi distribusi tentang . p(yX)yiXiXi
  • Pemodelan generatif : Kami memodelkan distribusi gabungan, , dari biasanya dengan memodelkan distribusi bersyarat dan marginal distribusi . Kemudian kita menggunakan formula Bayes untuk menghitung . Analisis diskriminan linier dan metode Bayes naif adalah contohnya. The asumsi pemodelan bekerja biasanya akan menjadi asumsi iid.p(X,y)(X,y)p(Xy)p(y)p(yX)

Untuk kedua pendekatan pemodelan, asumsi pemodelan kerja digunakan untuk menurunkan atau mengusulkan metode pembelajaran (atau penduga). Itu bisa dengan memaksimalkan log (kemungkinan) log, meminimalkan risiko empiris atau dengan menggunakan metode Bayesian. Sekalipun asumsi pemodelan yang bekerja salah, metode yang dihasilkan masih dapat memberikan kecocokan masuk akal . p(yX)

Beberapa teknik yang digunakan bersama dengan pemodelan diskriminatif, seperti mengantongi (agregasi bootstrap), bekerja dengan mencocokkan banyak model dengan data sampel secara acak dari dataset. Tanpa asumsi iid (atau pertukaran), dataset yang di-resampled tidak akan memiliki distribusi bersama yang serupa dengan dataset asli. Setiap struktur ketergantungan telah menjadi "kacau" oleh resampling. Saya belum memikirkan hal ini secara mendalam, tetapi saya tidak melihat mengapa hal itu seharusnya mematahkan metode ini sebagai metode untuk belajar . Setidaknya tidak untuk metode yang didasarkan pada asumsi independensi kerja. Saya senang dibuktikan salah di sini.p(yX)

Batas konsistensi dan kesalahan

Pertanyaan sentral untuk semua metode pembelajaran adalah apakah mereka menghasilkan model yang dekat dengan . Ada literatur teoritis yang luas dalam statistik dan pembelajaran mesin berurusan dengan konsistensi dan batas kesalahan. Tujuan utama dari literatur ini adalah untuk membuktikan bahwa model yang dipelajari dekat dengan ketika adalah besar. Konsistensi adalah jaminan kualitatif, sementara batas kesalahan menyediakan (semi-) kontrol kuantitatif eksplisit kedekatan dan memberikan tingkat konvergensi.p(yX)p(yX)N

Hasil teoritis semua bergantung pada asumsi tentang distribusi gabungan dari pengamatan dalam dataset. Seringkali asumsi pemodelan kerja yang disebutkan di atas dibuat (yaitu, independensi bersyarat untuk pemodelan diskriminatif dan id untuk pemodelan generatif). Untuk pemodelan diskriminatif, konsistensi dan batas kesalahan akan mensyaratkan bahwa memenuhi kondisi tertentu. Dalam regresi klasik satu syarat seperti itu adalah bahwa untuk , di mana menunjukkan matriks desain dengan barisXi1NXTXΣNXXiT. Kondisi yang lebih lemah mungkin cukup untuk konsistensi. Dalam jarang belajar kondisi lain seperti kondisi nilai eigen terbatas, lihat misalnya Pada kondisi yang digunakan untuk membuktikan hasil oracle untuk Lasso . Asumsi iid bersama-sama dengan beberapa asumsi distribusi teknis menyiratkan bahwa beberapa kondisi yang cukup dipenuhi dengan probabilitas besar, dan dengan demikian asumsi iid dapat membuktikan menjadi cukup tetapi bukan asumsi yang diperlukan untuk mendapatkan konsistensi dan batas kesalahan untuk pemodelan diskriminatif.

Asumsi pemodelan kerja independensi mungkin salah untuk salah satu pendekatan pemodelan. Sebagai aturan praktis, kita masih bisa mengharapkan konsistensi jika data berasal dari proses ergodik , dan kita masih bisa mengharapkan beberapa batas kesalahan jika proses pencampuran cukup cepat . Definisi matematis yang tepat dari konsep-konsep ini akan membawa kita terlalu jauh dari pertanyaan utama. Cukup untuk dicatat bahwa ada struktur ketergantungan selain asumsi awal yang metode pembelajarannya dapat dibuktikan berhasil karena cenderung tak hingga.N

Jika kita memiliki pengetahuan yang lebih terperinci tentang struktur ketergantungan, kita dapat memilih untuk mengganti asumsi independensi kerja yang digunakan untuk pemodelan dengan model yang menangkap struktur ketergantungan juga. Ini sering dilakukan untuk deret waktu. Model kerja yang lebih baik dapat menghasilkan metode yang lebih efisien.

Penilaian model

Daripada membuktikan bahwa metode pembelajaran memberikan model mendekati , adalah nilai praktis yang bagus untuk mendapatkan penilaian (relatif) dari "seberapa baik model yang dipelajari adalah". Skor penilaian tersebut dapat dibandingkan untuk dua atau lebih model yang dipelajari, tetapi mereka tidak akan memberikan penilaian absolut tentang seberapa dekat model yang dipelajari dengan . Perkiraan skor penilaian biasanya dihitung secara empiris berdasarkan pemisahan dataset menjadi pelatihan dan dataset pengujian atau dengan menggunakan validasi silang.p ( y X )p(yX)p(yX)

Seperti halnya mengantongi, pemisahan acak dari dataset akan "mengacaukan" struktur ketergantungan apa pun. Namun, untuk metode yang didasarkan pada asumsi independensi kerja, asumsi ergodisitas yang lebih lemah daripada yang seharusnya cukup untuk perkiraan penilaian menjadi masuk akal, meskipun kesalahan standar pada perkiraan ini akan sangat sulit untuk muncul.

[ Sunting: Ketergantungan di antara variabel-variabel akan menghasilkan distribusi model yang dipelajari yang berbeda dari distribusi berdasarkan asumsi awal. Estimasi yang dihasilkan oleh validasi silang jelas tidak terkait dengan kesalahan generalisasi. Jika ketergantungannya kuat, kemungkinan besar itu merupakan estimasi yang buruk.]

Ringkasan (tl; dr)

Semua hal di atas adalah dengan asumsi bahwa ada model probabilitas kondisional tetap, . Dengan demikian tidak mungkin ada tren atau perubahan mendadak dalam distribusi bersyarat yang tidak ditangkap oleh .Xp(yX)X

Saat mempelajari model diberikan , independensi berperan sebagaiXyX

  • asumsi pemodelan kerja yang berguna yang memungkinkan kita untuk mendapatkan metode pembelajaran
  • asumsi yang cukup tetapi tidak perlu untuk membuktikan konsistensi dan memberikan batas kesalahan
  • asumsi yang cukup tetapi tidak perlu untuk menggunakan teknik pemisahan data acak seperti mengantongi untuk belajar dan validasi silang untuk penilaian.

Untuk memahami dengan tepat apa alternatif untuk iid yang juga mencukupi adalah non-sepele dan sampai batas tertentu subjek penelitian.


2
Ini adalah jawaban yang sangat bagus. Ini tepat dan memberi saya referensi yang cukup untuk belajar mandiri, terima kasih banyak untuk @NRH saya senang. Saya hanya akan meninggalkan karunia untuk mendorong orang lain mengambil pertanyaan, tetapi saya sudah menandai ini sebagai jawaban yang diterima karena itu dengan indah mengatasi semua masalah awal saya.
Quantuple

10

Apa asumsi iid menyatakan adalah bahwa variabel acak independen dan terdistribusi secara identik . Anda dapat secara formal menentukan apa artinya, tetapi secara informal dikatakan bahwa semua variabel memberikan jenis informasi yang sama secara independen satu sama lain (Anda dapat membaca juga tentang pertukaran yang terkait ).

Dari ide-ide abstrak, mari kita lompat sejenak ke contoh konkret: dalam kebanyakan kasus data Anda dapat disimpan dalam sebuah matriks, dengan observasi baris-bijaksana dan variabel-bijaksana kolom. Jika Anda menganggap data Anda iid , berarti Anda hanya perlu repot tentang hubungan antar kolom dan tidak perlu repot tentang hubungan antar baris. Jika Anda peduli tentang keduanya maka Anda akan memodelkan ketergantungan kolom pada kolom dan baris pada baris, yaitu semuanya pada segalanya. Sangat sulit untuk membuat penyederhanaan dan membangun model statistik segala sesuatu tergantung pada semuanya.

Anda dengan benar memperhatikan bahwa exchengeability memungkinkan kami untuk menggunakan metode seperti cross-validation, atau bootstrap, tetapi juga memungkinkan untuk menggunakan teorema limit pusat dan memungkinkan kami untuk membuat penyederhanaan bermanfaat untuk pemodelan (berpikir dalam istilah kolom-bijaksana) ).

Seperti yang Anda perhatikan dalam contoh LASSO, asumsi independensi seringkali dilunakkan menjadi independensi bersyarat . Bahkan dalam kasus seperti itu kita perlu "bagian" yang independen dan terdistribusi secara identik. Asumsi yang serupa dan lebih lunak sering dibuat untuk model deret waktu, yang Anda sebutkan, yang mengasumsikan stasioneritas (jadi ada ketergantungan tetapi ada juga distribusi umum dan deret stabil dari waktu ke waktu - lagi-lagi bagian "iid"). Ini adalah masalah mengamati sejumlah hal serupa yang membawa ide yang sama tentang beberapa fenomena umum. Jika kita memiliki sejumlah hal yang berbeda dan tergantung, kita tidak dapat membuat generalisasi.

Yang harus Anda ingat adalah bahwa ini hanya asumsi, kami tidak ketat tentang itu. Ini adalah tentang memiliki cukup banyak hal yang semuanya, secara independen, menyampaikan informasi serupa tentang beberapa fenomena umum. Jika hal-hal saling mempengaruhi, mereka jelas akan menyampaikan informasi yang sama sehingga mereka tidak akan berguna.

Bayangkan Anda ingin belajar tentang kemampuan anak-anak di kelas, jadi Anda memberi mereka beberapa tes. Anda dapat menggunakan hasil tes sebagai indikator kemampuan anak-anak hanya jika mereka melakukannya sendiri, satu sama lain. Jika mereka berinteraksi maka Anda mungkin akan mengukur kemampuan anak yang paling pintar, atau yang paling berpengaruh. Itu tidak berarti bahwa Anda perlu berasumsi bahwa tidak ada interaksi, atau ketergantungan, antara anak-anak sama sekali, tetapi hanya bahwa mereka melakukan tes sendiri. Anak-anak juga perlu "didistribusikan secara identik", sehingga mereka tidak dapat berasal dari negara yang berbeda, berbicara bahasa yang berbeda, berada di usia yang berbeda karena akan mempersulit untuk menginterpretasikan hasilnya (mungkin mereka tidak memahami pertanyaan dan menjawab secara acak). Jika Anda dapat menganggap bahwa data Anda adalah idmaka Anda bisa fokus membangun model umum. Anda dapat menangani data non- iid tetapi Anda harus lebih khawatir tentang "noise" dalam data Anda.


Selain pertanyaan utama Anda, Anda juga bertanya tentang validasi silang dengan data non- iid . Meskipun Anda tampaknya meremehkan pentingnya asumsi iid , pada saat yang sama Anda melebih-lebihkan masalah tidak memenuhi asumsi ini berpose untuk validasi silang. Ada beberapa cara bagaimana kita dapat menangani data seperti itu ketika menggunakan metode resampling seperti bootstrap, atau validasi silang. Jika Anda berurusan dengan deret waktu, Anda tidak dapat mengasumsikan bahwa nilainya independen, jadi mengambil pecahan acak dari nilai akan menjadi ide yang buruk karena akan mengabaikan struktur data yang terkait otomatis. Karena itu, dengan deret waktu, kita biasanya menggunakan validasi silang selangkah lebih maju, yaitu Anda mengambil bagian dari seri untuk memprediksi nilai berikutnya (tidak digunakan untuk pemodelan). Demikian pula, jika data Anda memiliki struktur cluster , Anda mencicipi seluruh cluster untuk menjaga sifat data. Jadi seperti halnya dengan pemodelan, kita dapat menangani non- iid juga ketika melakukan validasi silang, tetapi kita perlu menyesuaikan metode kita dengan sifat data karena metode yang dirancang untuk data iid tidak berlaku dalam kasus seperti itu.


Saya menghargai Anda meluangkan waktu untuk menjawab kekhawatiran saya. Sementara Anda memberikan penjelasan yang sangat bagus tentang apa yang disampaikan asumsi iid ... itu membuat saya frustrasi. (1) Untuk melatih LASSO sudah cukup (karena memungkinkan seseorang untuk menulis estimasi kemungkinan log yang dihukum), tetapi apa dampak dari tidak menjadi sampel iid (yang merupakan kasus jika prediktor berasal dari rangkaian waktu dan karenanya dikorelasikan secara otomatis). (2) Juga apa akibat dari tidak memiliki pertukaran pada penggunaan validasi silang misalnya? (ctd) ...yi|XiXi
Jumlah

(ctd) ... Dengan kata lain, walaupun jawaban Anda jelas menerangkan konsep iid, saya ingin tahu lebih banyak secara teknis: ketika ini dilanggar, apa efeknya?
Jumlah

@ Quupuple maka Anda menggunakan metode untuk data non iid, misalnya dalam sampel seluruh seri time-series data dalam bootstrap dll
Tim

Terima kasih lagi. Saya memang ingat pernah membaca di suatu tempat tentang teknik seperti itu. Apakah ada sumber yang membahas semua metode kandidat potensial? Saya baru saja menemukan makalah dari C. Bergmeir, R. Hyndman, B. Koo "Catatan tentang Validitas Validasi Lintas untuk Mengevaluasi Prediksi Time Series" yang akan saya coba baca secepatnya.
Quantuple

1
@Quantuple memeriksa klasik "Pengantar Bootstrap" oleh Efron dan Tibshirani dan "Metode Bootstrap dan Aplikasi Mereka" oleh Davison dan Hinkley untuk membaca tentang bootstrap (ide yang sama berlaku untuk validasi silang); buku pegangan seri waktu menjelaskan cara menggunakan validasi silang dan bootstrap untuk data tersebut (yaitu selangkah lebih maju validasi silang). Periksa juga hasil edit saya.
Tim

3

Satu-satunya tempat di mana seseorang dapat dengan aman diabaikan adalah dalam statistik sarjana dan kursus pembelajaran mesin. Anda telah menulis itu:

orang dapat bekerja di sekitar asumsi awal dan mendapatkan hasil yang kuat. Sebenarnya hasilnya biasanya akan tetap sama, itu bukan kesimpulan bahwa orang dapat menggambar yang akan berubah ...

Ini hanya benar jika bentuk fungsional model pada dasarnya dianggap benar. Tapi, anggapan seperti itu bahkan lebih tidak masuk akal daripada iid.

Setidaknya ada dua cara di mana iid sangat penting dalam hal pemodelan terapan:

  1. Ini adalah asumsi eksplisit dalam sebagian besar inferensi statistik, seperti yang Anda catat dalam pertanyaan Anda. Dalam kebanyakan pemodelan dunia nyata, pada tahap tertentu kita perlu menggunakan inferensi untuk menguji spesifikasi, seperti selama pemilihan variabel dan perbandingan model. Jadi, sementara masing-masing model yang cocok mungkin OK meskipun ada pelanggaran, Anda tetap bisa memilih model yang salah.

  2. Saya menemukan bahwa berpikir melalui pelanggaran iid adalah cara yang berguna untuk berpikir tentang mekanisme menghasilkan data, yang pada gilirannya membantu saya berpikir tentang spesifikasi model apriori yang sesuai. Dua contoh:

    • Jika data berkerumun, ini merupakan pelanggaran iid. Obat untuk ini mungkin model campuran. Kesimpulan saya akan menarik dari model campuran umumnya sama sekali berbeda dengan yang saya gambar dari OLS.
    • Hubungan non-linear antara variabel dependen dan independen sering muncul ketika memeriksa residu sebagai bagian dari penyelidikan iid.

Tentu saja, dalam model yang hampir pernah saya buat, saya gagal dalam upaya saya untuk mengurangi distribusi residu menjadi apa pun yang mendekati distribusi yang benar-benar normal. Tetapi, bagaimanapun, saya selalu mendapatkan banyak dengan berusaha benar-benar, sangat sulit untuk melakukannya.


Terima kasih atas jawaban Anda yang sangat mendalam. Dengan kalimat terakhir dari (1) maksud Anda bahwa Anda dapat memiliki beberapa model dengan kecocokan yang layak dengan data yang diamati, tetapi ketika Anda akan menggunakan teknik pemilihan model standar (mis. Validasi silang) Anda tidak akan memilih yang terbaik ( dalam hal generalisabilitas) karena kesimpulan yang Anda tarik akan bias karena pelanggaran IID? (2) Menurut saya, seperti Anda berbicara tentang residu IID sebagai bagian dari spesifikasi fungsional (misalnya residu regresi) yang tidak membatalkan apa yang Anda tulis (ctd) ...
Quantuple

(ctd) ... tetapi pertanyaan awal terkait dengan contoh pelatihan non iid (x, y) bukan residual non iid setelah memperkirakan suatu model. Saya kira pertanyaan saya bisa jadi, ketika Anda memiliki contoh pelatihan non iid (misalnya seri waktu), apakah Anda harus menambahkan langkah pra-pemrosesan untuk membuatnya iid? Jika tidak, dan terapkan prosedur standar untuk memperkirakan / memvalidasi silang model Anda, di mana peringatannya?
Jumlah

1
Ketika Anda memiliki contoh pelatihan non iid, idenya adalah untuk menemukan model yang memperhitungkan sifat non-iid dan menghasilkan residu yang iid. Sementara ada beberapa masalah di mana masuk akal untuk pra-proses data (misalnya, transformasi variabel dalam regresi linier), banyak masalah iid lebih baik ditangani dengan menemukan model yang secara eksplisit menangani masalah iid. Misalnya, mentransfer fungsi dalam deret waktu, atau model hierarkis dalam data cross-sectional.
Tim

Saya setuju dengan fakta bahwa, karena data deret waktu biasanya menunjukkan beberapa bentuk ketergantungan, adalah wajar untuk bertujuan menangkap ini melalui model statistik yang dirancang untuk melakukannya misalnya fungsi transfer. Sejauh ini menyangkut pelatihan. Sekarang, sejauh menyangkut cross-validation (CV), saya kira saya juga perlu metode khusus untuk menjelaskan ketidakbenaran? Maksud saya menggunakan fungsi transfer tidak mengubah fakta bahwa data saya tidak iid sejak awal. Apakah ada daftar metode khusus semacam itu di suatu tempat? Seberapa besar bias optimis ketika menggunakan metode CV standar dengan data non iid?
Quantuple

1
Itu akan tergantung pada sifat metode validasi silang dan masalahnya. Saya pikir triknya adalah dengan menggunakan metode cross-validasi yang tidak terstruktur secara implisit di sekitar iid. Misalnya, jacknife tidak masuk akal. Tapi, memecah sampel menjadi estimasi, uji dan validasi sampel, mungkin. Tapi, ini benar-benar pertanyaan yang berbeda dengan yang asli, dan itu bukan bidang keahlian saya.
Tim

2

Menurut pendapat saya ada dua alasan yang lumrah mengapa asumsi iid penting dalam pembelajaran statistik (atau statistik secara umum).

  1. Banyak di belakang layar matematika bergantung pada asumsi ini. Jika Anda ingin membuktikan bahwa metode pembelajaran Anda benar-benar berfungsi untuk lebih dari satu set data, asumsi awal akan muncul pada akhirnya. Dimungkinkan untuk menghindarinya, tetapi matematika menjadi beberapa kali lebih sulit.

  2. Jika Anda ingin belajar sesuatu dari data, Anda perlu berasumsi bahwa ada sesuatu untuk dipelajari. Belajar tidak mungkin jika setiap titik data dihasilkan oleh mekanisme yang berbeda. Jadi penting untuk mengasumsikan bahwa sesuatu menyatukan set data yang diberikan. Jika kita mengasumsikan bahwa data itu acak, maka sesuatu ini secara alami merupakan distribusi probabilitas, karena distribusi probabilitas mencakup semua informasi tentang variabel acak.

    Jadi jika kita memiliki data ( dapat berupa vektor atau skalar), kita asumsikan bahwa itu berasal dari distribusi :x1,...,xnxiFn

    (x1,...,xn)Fn.

    Di sini kita punya masalah. Kita perlu memastikan bahwa terkait dengan , untuk dan berbeda , jika tidak kita memiliki masalah awal, bahwa setiap titik data dihasilkan secara berbeda. Masalah kedua adalah bahwa walaupun kita memiliki titik data, kita pada dasarnya memiliki satu titik data untuk memperkirakan , karena adalah distribusi probabilitas -variate. Solusi paling sederhana untuk dua masalah ini adalah asumsi awal. Dengan itu di mana . Kami mendapatkan hubungan yang sangat jelas antara dan dan kami memilikiFnFmnmnFnFnnFn=Fn,xiFFnFmnData menunjukkan untuk memperkirakan satu . Ada cara-cara lain kedua masalah ini diselesaikan, tetapi penting untuk dicatat bahwa setiap metode pembelajaran statistik perlu menyelesaikan masalah ini dan kebetulan bahwa asumsi pertama sejauh ini adalah cara yang paling tidak rumit untuk melakukannya.F


Terima kasih atas tanggapan Anda yang menarik. Sejauh poin pertama Anda prihatin, memang mudah untuk memahami bahwa asumsi awal akan muncul di suatu tempat di penalaran, tetapi apakah Anda kebetulan memiliki referensi (bukan karena saya tidak percaya, hanya saja saya ingin tahu persis dimana). Poin kedua Anda sangat jelas dan saya tidak pernah berpikir seperti itu. Tetapi untuk pelatihan, distribusi "input" data ini tidak menjadi perhatian bagi modeller secara umum, bukan? Dalam contoh LASSO, kami hanya peduli pada kondisi independen dari tanggapan diberikan input (ctd) ...xyx
Quantuple

(ctd) ... tetapi seperti yang telah Anda nyatakan di poin pertama Anda, asumsi contoh pelatihan iid akan kembali ketika kita akan melihat sifat generalisasi dari LASSO. Apa yang akan menyenangkan (dan apa yang saya putus asa cari saya kira) adalah referensi / penjelasan teknis sederhana yang menunjukkan bagaimana pelanggaran asumsi iid memperkenalkan bias optimis dalam estimator cross-validasi misalnya.
Quantuple

Distribusi data input penting. Jika kita tidak berasumsi bahwa distribusi data entah bagaimana diperbaiki, maka kita tidak dapat memiliki keyakinan bahwa pelatihan akan menghasilkan model yang kuat, yaitu yang berkinerja baik pada data uji. Anggaplah asumsi iid gagal, atau lebih tepatnya asumsi independensi tidak dilanggar tetapi data tidak perlu didistribusikan secara identik. Ini berarti DGP dapat berupa yang berikut: untuk dan , untuk . Misalkan dan independen. yi=α+β1x1i+εii=1,...,n/2yi=α+β2x2i+εii=n/2+1,...,nx1ix2i
mpiktas

Sekarang pilih set pelatihan dan set tes . Apa pun metode pelatihan yang Anda pilih, itu akan berakibat buruk pada set tes, karena data dihasilkan oleh dua proses berbeda, yang tidak identik. Ini adalah contoh yang dibuat-buat, tetapi tidak ada yang menghalanginya terjadi dalam contoh pembelajaran statistik nyata. i=1,...,n/2i=n/2+1,...,n
mpiktas

Ya tentu saja ... saya menulis terlalu cepat dan menghasilkan komentar yang sangat tidak jelas. Ketika saya menulis "distribusi data input tidak menjadi perhatian bagi modeller", saya benar-benar memikirkan fakta bahwa bagian independen dari asumsi iid tidak relevan ketika memperkirakan suatu model (karena itu tidak mempengaruhi fungsi regresi ). Sejauh bagian identik dari asumsi awal terkait, itu memang asumsi yang diperlukan untuk mengatur seluruh roda inferensi statistik menjadi gerak (itu menghindari kata-kata Anda bahwa "setiap titik data dihasilkan oleh mekanisme yang berbeda"). xE[y|X]
Quantuple

1

Saya ingin menekankan bahwa dalam beberapa keadaan, data tidak iid dan pembelajaran statistik masih memungkinkan. Sangat penting untuk memiliki model yang dapat diidentifikasi untuk distribusi bersama dari semua pengamatan; jika pengamatannya benar maka distribusi bersama ini mudah diperoleh dari distribusi marginal pengamatan tunggal. Tetapi dalam beberapa kasus, distribusi bersama diberikan secara langsung, tanpa menggunakan distribusi marginal.

Model yang banyak digunakan di mana pengamatannya tidak iid adalah model linear campuran: dengan , , , , , dan . Matriks (desain) dan dianggap tetap, adalah vektor parameter, adalah vektor acak dan , dan

Y=Xα+Zu+ε
YRnXRn×pαRpZRn×quRqεRnXZαuuN(0,τIq)εN(0,σ2In)τσ2 menjadi parameter model.

Model ini paling baik diungkapkan dengan memberikan distribusi : Parameter yang akan dipelajari adalah , , . Vektor tunggal dari dimensi diamati; komponennya tidak iidY N ( X α , τ Z Z + σ 2 I n ) . α τ σ 2 Y nY

YN(Xα,τZZ+σ2In).
ατσ2Yn
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.