Ketika mengoptimalkan model regresi logistik, kadang-kadang lebih banyak data membuat segalanya berjalan * lebih cepat *. Ada yang tahu kenapa?

Saya telah bermain-main dengan regresi logistik dengan berbagai algoritma optimasi batch (gradien konjugat, newton-raphson, dan berbagai metode quasinewton). Satu hal yang saya perhatikan adalah bahwa kadang-kadang, menambahkan lebih banyak data ke model sebenarnya dapat membuat pelatihan model membutuhkan waktu lebih sedikit. Setiap iterasi membutuhkan melihat lebih banyak titik data, tetapi jumlah total iterasi yang dibutuhkan dapat turun secara signifikan ketika menambahkan lebih banyak data. Tentu saja, ini hanya terjadi pada set data tertentu, dan pada titik tertentu menambahkan lebih banyak data akan menyebabkan pengoptimalan melambat kembali.

Apakah ini fenomena yang dipelajari dengan baik? Di mana saya dapat menemukan informasi lebih lanjut tentang mengapa / kapan ini bisa terjadi?

logistic references optimization

— Mike Izbicki
sumber

Ini pengamatan yang menarik. Jumlah iterasi dapat berkurang dengan lebih banyak data yang intuitif: kecuali dengan pemisahan penuh, memiliki lebih banyak data menyiratkan ketepatan yang lebih besar bahkan dalam perkiraan awal yang kasar dari solusi. Dengan lebih sedikit data pencarian awal yang lebih luas, dengan gradien kecil, mungkin perlu terjadi. Analisis matriks informasi di lingkungan nilai parameter yang benar akan membuat intuisi ini kuantitatif.

— whuber

Selain hal-hal @whuber menyebutkan, menambahkan data dapat membuat permukaan kemungkinan "lebih baik", yang berarti algoritme yang khas harus menyatu jauh lebih cepat. Dalam sampel kecil, konvergensi untuk GLM kadang-kadang mungkin lambat karena permukaannya tidak bagus, hampir kuadratik dalam parameter. Ketika ukuran sampel bertambah besar - terutama jika Anda memiliki fungsi tautan kanonik, maka kemungkinannya hanyalah fungsi dari beberapa statistik yang cukup sederhana - mungkin lebih cepat tidak hanya di iterasi, tetapi bahkan mungkin dalam waktu.

— Glen_b -Reinstate Monica

Saya memahami intuisi yang Anda berdua sebutkan, tetapi saya ingin tahu apakah ini bisa dikuantifikasi sedikit lebih entah bagaimana. Sebagai contoh, mungkin beberapa hasil eksperimen menunjukkan seberapa banyak peningkatan kecepatan mungkin dapat diperoleh dengan lebih banyak data.

— Mike Izbicki

Banyak hal aneh dapat memengaruhi kecepatan pemrosesan. Lihat pertanyaan yang paling banyak dipilih di Stack Overflow .

— Nick Stauner

Bisakah Anda memberikan satu kasing yang menunjukkan ini? Jika Anda bisa menjadikannya "tipikal" untuk pengalaman Anda, dan menunjukkan bahwa bagaimana subset data yang "sehat" memiliki konvergensi lambat, tetapi set data itu sendiri memiliki konvergensi yang lebih cepat, yang mungkin membantu dengan jawaban yang lebih baik. Saya pikir saya baru saja mengutip Mike Izbicki.

— EngrStudent

Dengan jumlah data yang lebih sedikit, korelasi palsu antara input regresi seringkali tinggi, karena Anda hanya memiliki begitu banyak data. Ketika variabel regresi dikorelasikan, permukaan kemungkinan relatif datar, dan itu menjadi lebih sulit bagi pengoptimal, terutama yang tidak menggunakan Hessian penuh (misalnya Newton Raphson), untuk menemukan minimum.

Ada beberapa grafik yang bagus di sini dan lebih banyak penjelasan, dengan bagaimana berbagai algoritma bekerja terhadap data dengan jumlah korelasi yang berbeda, di sini: http://fa.bianp.net/blog/2013/numerical-optimizers-for-logistic-regress/

— Joe
sumber