Saya tidak dapat berlari dengan anjing-anjing besar statistik yang telah menjawab sebelum saya, dan mungkin pemikiran saya naif, tetapi saya melihatnya seperti ini ...
Bayangkan Anda berada di dalam mobil dan Anda menyusuri jalan dan memutar roda ke kiri dan ke kanan dan menekan pedal gas dan rem dengan panik. Namun mobil berjalan dengan lancar, tidak terpengaruh oleh tindakan Anda. Anda akan segera curiga bahwa Anda tidak berada di dalam mobil sungguhan, dan mungkin jika kami melihat lebih dekat, kami akan menentukan bahwa Anda sedang dalam perjalanan di Disney World. (Jika Anda berada di mobil sungguhan, Anda akan berada dalam bahaya besar, tetapi jangan pergi ke sana.)
Di sisi lain, jika Anda mengemudi di jalan di dalam mobil dan memutar roda hanya sedikit ke kiri atau ke kanan segera mengakibatkan mobil bergerak, merekam rem menghasilkan perlambatan yang kuat, sambil menekan pedal gas melemparkan Anda kembali ke kursi. Anda mungkin curiga bahwa Anda berada di dalam mobil sport berkinerja tinggi.
Secara umum, Anda mungkin mengalami sesuatu di antara kedua ekstrem itu. Sejauh mana input Anda (kemudi, rem, gas) secara langsung mempengaruhi gerakan mobil memberi Anda petunjuk tentang kualitas mobil. Artinya, semakin banyak varian mobil Anda yang terkait dengan tindakan Anda, semakin baik mobil, dan semakin banyak mobil bergerak secara independen dari kendali Anda, semakin buruk mobil itu.
Dengan cara yang sama, Anda berbicara tentang membuat model untuk beberapa data (sebut saja data ini ), berdasarkan beberapa set data lainnya (sebut saja mereka ). Jika tidak bervariasi, itu seperti mobil yang tidak bergerak dan ada benar-benar ada gunanya membahas jika mobil (model) bekerja dengan baik atau tidak, jadi kami akan menganggap tidak bervariasi.x 1 , x 2 , . . . , x i y yyx1, x2, . . . , xsayayy
Sama seperti mobil, model berkualitas baik akan memiliki hubungan yang baik antara hasil bervariasi dan input bervariasi. Tidak seperti mobil, tidak selalu menyebabkan berubah, tetapi jika modelnya akan berguna, perlu diubah dalam hubungan yang dekat dengan . Dengan kata lain, menjelaskan banyak perbedaan dalam .x i x i y x i y x i yyxsayaxsaya yxsayayxsayay
PS Saya tidak bisa membuat analogi Winnie The Pooh, tetapi saya mencoba.
PPS [EDIT:] Perhatikan bahwa saya sedang menjawab pertanyaan khusus ini. Jangan bingung untuk berpikir bahwa jika Anda menghitung 100% dari varians model Anda akan tampil luar biasa. Anda juga perlu memikirkan over-fitting, di mana model Anda sangat fleksibel sehingga sangat cocok dengan data pelatihan - termasuk keanehan acak dan keanehan. Untuk menggunakan analogi ini, Anda menginginkan mobil yang memiliki kemudi dan rem yang baik, tetapi Anda ingin mobil itu bekerja dengan baik di jalan, tidak hanya di jalur uji yang Anda gunakan.