Alasan mengapa plot secara universal digunakan untuk memperkenalkan regresi sederhana - respons yang diprediksi oleh satu prediktor - adalah bahwa plot membantu pemahaman.
Namun, saya percaya saya bisa memberikan sesuatu dari rasa yang mungkin bisa membantu dalam memahami apa yang terjadi. Dalam hal ini saya sebagian besar akan fokus pada upaya untuk menyampaikan beberapa pemahaman yang mereka berikan, yang dapat membantu dengan beberapa aspek lain yang biasanya akan Anda temui dalam membaca tentang regresi. Jadi jawaban ini terutama akan membahas aspek tertentu dari posting Anda.
Bayangkan Anda duduk di depan meja persegi panjang besar seperti meja kantor sederhana, yang panjang lengannya penuh (mungkin 1,8 meter), mungkin sekitar setengah lebarnya.
Anda duduk di depan meja dalam posisi yang biasa, di tengah satu sisi yang panjang. Di atas meja ini sejumlah besar paku (dengan kepala yang cukup halus) telah dipalu ke permukaan atas sehingga masing-masing menyembul sedikit (cukup untuk merasakan di mana mereka berada, dan cukup untuk mengikat tali pada mereka atau menempelkan karet gelang) ).
Kuku-kuku ini berada pada jarak yang berbeda-beda dari tepi meja Anda, sedemikian rupa sehingga ke salah satu ujungnya (katakanlah ujung kiri) mereka biasanya lebih dekat ke tepi meja Anda dan kemudian ketika Anda bergerak ke ujung yang lain kuku-kepala cenderung lebih jauh dari tepi Anda.
Lebih jauh bayangkan bahwa akan berguna untuk memiliki rasa seberapa jauh rata-rata kuku dari tepi Anda pada posisi apa pun di sepanjang tepi Anda.
Pilih tempat di sepanjang tepi meja Anda dan letakkan tangan Anda di sana, lalu raih ke depan tepat di seberang meja, seret dengan lembut tangan Anda langsung kembali ke arah Anda, lalu menjauh lagi, gerakkan tangan Anda maju dan mundur di atas kepala paku. Anda menjumpai beberapa lusin gundukan dari paku-paku ini - paku dalam lebar tangan Anda yang sempit (saat bergerak langsung menjauhi tepi Anda, pada jarak konstan dari ujung kiri meja), bagian, atau potongan, kira-kira selebar sepuluh cm .
Idenya adalah untuk mencari tahu jarak rata-rata ke kuku dari tepi meja Anda di bagian kecil itu. Secara intuitif itu hanya bagian tengah gundukan yang kita tekan tetapi jika kita mengukur setiap jarak ke paku pada bagian meja selebar tangan, kita bisa menghitung rata-rata dengan mudah.
Sebagai contoh, kita dapat menggunakan T-square yang kepalanya meluncur di sepanjang tepi meja dan yang porosnya mengarah ke sisi lain meja, tetapi tepat di atas meja sehingga kita tidak mengenai paku saat slide itu meluncur ke kiri. atau kanan - ketika kita melewati paku yang diberikan kita bisa mendapatkan jaraknya di sepanjang poros T-square.
Jadi pada perkembangan tempat-tempat di sepanjang tepi kami, kami mengulangi latihan ini untuk menemukan semua paku di strip selebar berjalan menuju dan menjauh dari kami dan menemukan jarak rata-rata mereka. Mungkin kita membagi meja menjadi strip selebar tangan di sepanjang tepi kita (sehingga setiap paku ditemukan tepat di satu strip).
Sekarang bayangkan ada yang mengatakan 21 strip seperti itu, yang pertama di tepi kiri dan yang terakhir di tepi kanan. Berarti semakin jauh dari tepi meja kami saat kami maju melintasi strip.
Ini berarti membentuk estimator regresi nonparametrik sederhana dari ekspektasi y (jarak-jauh kami) yang diberikan x (jarak di sepanjang tepi kami dari ujung kiri), yaitu, E (y | x). Secara khusus, ini adalah estimator regresi nonparametrik biner, juga disebut regressogram
Jika strip tersebut berarti meningkat secara teratur - yaitu, rata-rata biasanya meningkat sekitar jumlah yang sama per strip ketika kami bergerak melintasi strip - maka kita bisa lebih baik memperkirakan fungsi regresi kita dengan mengasumsikan bahwa nilai yang diharapkan dari y adalah linier fungsi x - yaitu bahwa nilai yang diharapkan dari y yang diberikan x adalah konstanta ditambah kelipatan x. Di sini konstanta mewakili di mana kuku cenderung berada ketika kita di x adalah nol (seringkali kita mungkin menempatkan ini di ujung kiri ekstrim tetapi tidak harus), dan kelipatan x tertentu adalah seberapa cepat rata-rata rata-rata berubah saat kita bergerak dengan satu sentimeter (katakanlah) ke kanan.
Tetapi bagaimana menemukan fungsi linier seperti itu?
Bayangkan kita melilitkan satu karet gelang di atas masing-masing kepala kuku, dan menempelkannya pada sebuah tongkat tipis panjang yang terletak tepat di atas meja, di atas kuku, sehingga ia berada di suatu tempat dekat "tengah" dari setiap pita yang telah kita buat. untuk.
Kami menempelkan pita sedemikian rupa sehingga mereka hanya meregangkan arah ke arah dan menjauh dari kami (tidak ke kiri atau kanan) - ke kiri sendiri mereka akan menarik sehingga membuat arah peregangan pada sudut kanan dengan tongkat, tetapi di sini kita mencegahnya, sehingga arah peregangan mereka tetap hanya pada arah menuju atau menjauh dari ujung meja kita. Sekarang kita membiarkan tongkat mengendap saat pita menariknya ke arah masing-masing kuku, dengan kuku yang lebih jauh (dengan karet gelang yang diregangkan) menarik secara bersamaan lebih keras daripada kuku yang dekat dengan tongkat.
Maka hasil gabungan dari semua pita yang menarik tongkat adalah (idealnya, setidaknya) menarik tongkat untuk meminimalkan jumlah panjang kuadrat dari pita karet yang diregangkan; dalam arah itu secara langsung di seberang meja, jarak dari tepi meja ke tongkat pada posisi x mana pun akan menjadi estimasi nilai y yang diharapkan dari x yang diberikan.
Ini pada dasarnya adalah estimasi regresi linier.
Sekarang, bayangkan bahwa alih-alih paku, kita memiliki banyak buah (seperti apel kecil mungkin) yang tergantung di pohon besar dan kami ingin menemukan jarak rata-rata buah di atas tanah karena bervariasi dengan posisi di tanah. Bayangkan bahwa dalam hal ini ketinggian di atas tanah menjadi lebih besar saat kita maju dan sedikit lebih besar saat kita bergerak ke kanan, lagi secara teratur, sehingga setiap langkah maju biasanya mengubah tinggi rata-rata sekitar jumlah yang sama, dan setiap langkah ke hak juga akan mengubah rata-rata dengan jumlah yang kira-kira konstan (tetapi jumlah rata-rata stepping-right ini berbeda dengan jumlah perubahan step-forward).
Jika kita meminimalkan jumlah jarak vertikal kuadrat dari buah ke lembaran datar tipis (mungkin lembaran tipis plastik sangat kaku) untuk mengetahui bagaimana perubahan rata-rata tinggi ketika kita bergerak maju atau melangkah ke kanan, itu akan menjadi regresi linier dengan dua prediktor - regresi berganda.
Ini adalah satu-satunya dua kasus yang plotnya dapat membantu memahami (mereka dapat menunjukkan dengan cepat apa yang baru saja saya jelaskan panjang lebar, tetapi mudah-mudahan Anda tahu memiliki dasar untuk mengkonseptualisasikan ide yang sama). Di luar dua kasus paling sederhana itu, kita hanya memiliki matematika saja.
Sekarang ambil contoh harga rumah Anda; Anda dapat mewakili area setiap rumah dengan jarak di sepanjang tepi meja Anda - mewakili ukuran rumah terbesar sebagai posisi di dekat tepi kanan, setiap ukuran rumah lainnya akan berada beberapa posisi lebih jauh ke kiri di mana sejumlah sentimeter tertentu akan mewakili beberapa jumlah meter persegi. Sekarang jaraknya merupakan harga jual. Merupakan rumah paling mahal karena jarak tertentu di dekat ujung meja terjauh (seperti biasa, ujung terjauh dari kursi Anda), dan setiap sentimeter yang bergeser akan mewakili sejumlah Rial.
Untuk saat ini bayangkan bahwa kami memilih representasi sehingga tepi kiri meja sesuai dengan luas rumah nol dan tepi dekat dengan harga rumah 0. Kami kemudian memasang paku untuk setiap rumah.
Kami mungkin tidak akan memiliki paku di dekat ujung kiri tepi kami (mereka mungkin sebagian besar ke arah kanan dan jauh dari kami) karena ini tidak selalu merupakan pilihan skala yang baik tetapi pilihan Anda dari model tanpa-penyadapan membuat ini cara yang lebih baik untuk membahasnya.
Sekarang dalam model Anda, Anda memaksa tongkat untuk melewati lingkaran tali di sudut kiri dekat meja - sehingga memaksa model yang dipasang memiliki harga nol untuk area nol, yang mungkin tampak alami - tetapi bayangkan jika ada beberapa komponen harga yang cukup konstan yang mempengaruhi setiap penjualan. Maka masuk akal jika intersepnya berbeda dari nol.
Bagaimanapun, dengan penambahan loop itu, latihan karet gelang yang sama seperti sebelumnya akan menemukan estimasi kuadrat terkecil dari garis.