Menggunakan model regresi untuk membuat prediksi: Kapan harus berhenti?

Saya menghitung model regresi linier sederhana dari ukuran percobaan saya untuk membuat prediksi. Saya telah membaca bahwa Anda tidak harus menghitung prediksi untuk poin yang terlalu jauh dari data yang tersedia. Namun, saya tidak dapat menemukan panduan untuk membantu saya mengetahui sejauh mana saya bisa memperkirakan. Sebagai contoh, jika saya menghitung kecepatan membaca untuk ukuran disk 50GB, saya kira hasilnya akan mendekati kenyataan. Bagaimana dengan ukuran disk 100GB, 500GB? Bagaimana saya tahu kalau prediksi saya dekat dengan kenyataan?

Detail percobaan saya adalah:

Saya mengukur kecepatan membaca suatu perangkat lunak dengan menggunakan ukuran disk yang berbeda. Sejauh ini saya telah mengukurnya dengan 5GB hingga 30GB dengan meningkatkan ukuran disk 5GB di antara percobaan (total 6 langkah).

Hasil saya linear dan kesalahan standar kecil, menurut saya.

regression prediction

— Flanfl
sumber

Saya pikir untuk mendapatkan jawaban yang bermanfaat, Anda perlu memperluas dan memperjelas kalimat kedua Anda.

— rolando2

rolando2 benar. Apa maksudmu "prediksi terlalu banyak"?

— David Robinson

Saya tidak dapat menemukan istilah yang tepat yang telah digunakan dalam dokumen yang saya baca. Idenya adalah "terlalu jauh dari ukuran asli saya". Jadi saya sudah mengukur kecepatan membaca dengan disk 30 GB. Jika saya memprediksi kecepatan membaca untuk disk 100GB, apakah ini "terlalu jauh"?

— Flanfl

Jawaban oleh gung cukup untuk menguraikan masalah yang terlibat. satu hal tambahan yang dapat membantu dalam kasus spesifik Anda adalah mempertimbangkan proses fisik yang terlibat dalam membaca perangkat lunak. Operasi apa yang perlu dilakukan? apakah perangkat lunak perlu mengatur atau mengurutkan disk sebagai bagian dari proses membaca? pertanyaan-pertanyaan ini akan membantu memberikan beberapa dasar untuk asumsi linearitas

— probabilityislogic

Jawaban:

Istilah yang Anda cari adalah 'ekstrapolasi'. Masalahnya adalah bahwa tidak peduli berapa banyak data yang Anda miliki, dan berapa banyak tingkat menengah yang Anda miliki antara titik akhir Anda pada ukuran disk (yaitu, antara 5 dan 30), selalu mungkin bahwa ada beberapa derajat kelengkungan dalam fungsi mendasar yang sebenarnya. , bahwa Anda tidak memiliki kekuatan untuk mendeteksi. Akibatnya, ketika Anda memperkirakan jauh dari titik akhir, tingkat kelengkungan yang kecil itu diperbesar, karena fungsi sebenarnya bergerak semakin jauh dari garis fit Anda. Kemungkinan lain adalah bahwa fungsi sebenarnya benar-benar lurus dalam rentang yang diteliti, tetapi mungkin ada titik perubahan agak jauh dari titik akhir dalam studi Anda. Hal-hal semacam ini tidak mungkin dikesampingkan; pertanyaannya adalah, seberapa besar kemungkinan mereka dan seberapa akurat prediksi Anda jika ternyata itu nyata? Saya tidak tahu bagaimana memberikan jawaban analitik untuk pertanyaan-pertanyaan itu. Firasat saya adalah 500 jauh dari jangkauan ketika kisaran yang diteliti adalah [5, 30], tetapi tidak ada alasan nyata untuk berpikir firasat saya lebih berharga daripada milik Anda. Rumus standar untuk interval prediksi komputasi akan menunjukkan kepada Anda interval yang bertambah saat Anda menjauh $\bar{x}$ , melihat seperti apa interval itu mungkin bermanfaat. Meskipun demikian, Anda harus ingat bahwa Anda membuat asumsi teoretis bahwa garis tersebut benar-benar lurus, dan tetap sejauh jalan keluar ke nilai yang akan Anda gunakan untuk prediksi. Keabsahan prediksi tersebut bergantung pada data & kecocokan, dan asumsi tersebut. $x$

— gung - Pasang kembali Monica
sumber

Sepenuhnya setuju (+1). Jawaban untuk pertanyaan ini tidak bisa hanya statistik. Berbicara dengan seorang insinyur perangkat lunak & komputer akan relevan di sini!

— Dominic Comtois

Terima kasih atas jawabannya, ini sangat membantu. Saya belajar sendiri jadi saya kehilangan banyak pengetahuan dasar (seperti mengetahui kosa kata).

— Flanfl

Tidak bisakah kebalikan dari lebar interval kepercayaan dianggap semacam indikator "kekuatan" prediksi? Jelas Anda harus memilih beberapa nilai arbitrer untuk memanfaatkannya ..

— naught101

@ naught101, jika Anda bersedia mengasumsikan bahwa garis regresi benar-benar lurus, maka lebar interval prediksi dapat dianggap sebagai ukuran kekuatan prediksi, (dengan interval yang lebih lebar menunjukkan prediksi yang lebih lemah), tetapi masih bergantung pada asumsi itu.

— gung - Reinstate Monica

Biarkan saya menambahkan beberapa poin ke jawaban luar biasa @ gung:

Tergantung pada bidang Anda, mungkin ada norma yang relevan (seperti dalam DIN / EN atau ISO). Ini mungkin bukan masalah dengan memprediksi kecepatan membaca hard disk, tetapi misalnya dalam kimia analitik aturannya bukanlah ekstrapolasi . Titik. Jika Anda ingin mencapai 500 GB, lalu pergi dan lakukan beberapa pengukuran hingga termasuk 500 GB.
Cara biasa menyiapkan model linear memiliki dua asumsi penting
- Jelas, bahwa fungsinya linier. Dalam praktik biasanya bukan asumsi yang sangat baik bahwa linearitas meluas hingga tak terbatas. Misalnya, bisakah Anda berharap masih menemukan linearitas jika Anda membaca jumlah yang lebih besar daripada volume hard disk?
- Biasanya, homoskedastisitas juga diasumsikan. Ini berarti bahwa jumlah absolut kesalahan / kebisingan tidak tergantung pada variabel dependen ( ), di sini: jumlah data yang akan dibaca. Saya tidak yakin tentang pembacaan hard disk, tetapi saya alami (kimia / chemometrics) biasanya sesuatu antara konstan absolut dan konstan kebisingan relatif (atau perilaku yang lebih rumit karena berbagai sumber kebisingan). Setiap penyimpangan dari jumlah absolut konstan rezim kebisingan akan berarti bahwa interval prediksi untuk ekstrapolasi sangat keliru - biasanya mereka akan terlalu sempit. $x$
Bahkan jika asumsi-asumsi ini dipenuhi, pertimbangkan seberapa besar interval prediksi sebenarnya untuk ekstrapolasi semacam itu:

(Saya mengambil beberapa data kalibrasi nyata dari pengukuran yang sangat bagus yang saya miliki dan menyesuaikannya dengan masalah Anda).
Perhatikan bahwa interval prediksi di = 500 sudah dua kali lebih besar sebagai total perbedaan dalam bentang kalibrasi data Anda! Jika Anda tidak memiliki kumpulan data linier yang sangat bagus, interval prediksi hanya akan "meledak". $x$ $t$

— cbeleites tidak senang dengan SX
sumber

+1, asumsi homoseksualitas adalah tambahan yang bagus untuk diskusi di sini. (Catatan kecil, dengan "Dot.", Maksud Anda Periode. Sebagai cara untuk menekankan finalitas aturan yang dinyatakan dalam kalimat sebelumnya?)

— gung - Reinstate Monica

@ung: Jika titik adalah kata maka itulah yang saya maksud :-) terima kasih.

— cbeleites tidak senang dengan SX

Memanggil periode "dot" hanya benar-benar digunakan dalam terminologi komputer & terutama untuk url (misalnya, "stats dot stackexchange dot com"). Ini adalah penggunaan yang cukup baru dalam bahasa Inggris, mungkin sekitar 20 tahun.

— gung - Reinstate Monica

Terima kasih atas poin tambahan Anda. Saya menyelesaikan pekerjaan saya beberapa waktu yang lalu tetapi saya berharap kedua jawaban untuk pertanyaan ini akan membantu siswa lain!

— Flanfl