Apa hubungan antara dan dalam plot berikut? Dalam pandangan saya ada hubungan linier negatif, tetapi karena kita memiliki banyak pencilan, hubungan ini sangat lemah. Apakah saya benar? Saya ingin belajar bagaimana kami bisa menjelaskan scatterplots.
Apa hubungan antara dan dalam plot berikut? Dalam pandangan saya ada hubungan linier negatif, tetapi karena kita memiliki banyak pencilan, hubungan ini sangat lemah. Apakah saya benar? Saya ingin belajar bagaimana kami bisa menjelaskan scatterplots.
Jawaban:
Pertanyaannya berkaitan dengan beberapa konsep: bagaimana mengevaluasi data yang diberikan hanya dalam bentuk sebar, bagaimana meringkas sebar sebar, dan apakah (dan sampai tingkat apa) suatu hubungan terlihat linier. Mari kita bereskan.
Gunakan prinsip-prinsip analisis data eksplorasi (EDA). Ini (setidaknya awalnya, ketika dikembangkan untuk penggunaan pensil dan kertas) menekankan ringkasan data yang sederhana, mudah dihitung, dan kuat. Salah satu jenis ringkasan yang paling sederhana didasarkan pada posisi dalam satu set angka, seperti nilai tengah, yang menggambarkan nilai "khas". Middles mudah diperkirakan dengan andal dari grafik.
Scatterplots memperlihatkan pasangan angka. Yang pertama dari setiap pasangan (sebagaimana diplot pada sumbu horizontal) memberikan satu set angka tunggal, yang dapat kita simpulkan secara terpisah.
Dalam scatterplot khusus ini, nilai-y tampak berada dalam dua kelompok yang hampir sepenuhnya terpisah : nilai-nilai di atas di bagian atas dan nilai-nilai yang sama dengan atau kurang dari di bagian bawah. (Kesan ini dikonfirmasi dengan menggambar histogram dari nilai-y, yang merupakan bimodal tajam, tetapi itu akan menjadi banyak pekerjaan pada tahap ini.) Saya mengundang orang skeptis untuk menyipit di scatterplot. Ketika saya melakukannya - menggunakan radius besar, blur Gaussian yang dikoreksi gamma (yaitu, hasil pemrosesan gambar cepat standar) dari titik-titik di scatterplot saya melihat ini:60
Kedua kelompok - atas dan bawah - cukup jelas. (Grup atas jauh lebih ringan daripada yang lebih rendah karena mengandung lebih sedikit titik.)
Karenanya, mari kita simpulkan kelompok nilai-y secara terpisah. Saya akan melakukannya dengan menggambar garis horizontal pada median kedua kelompok. Untuk menekankan kesan pada data dan untuk menunjukkan bahwa kita tidak melakukan perhitungan apa pun, saya telah (a) menghapus semua dekorasi seperti kapak dan garis kisi dan (b) mengaburkan poin. Sedikit informasi tentang pola dalam data hilang dengan demikian "menyipitkan mata" pada grafik:
Demikian pula, saya telah mencoba untuk menandai median dari nilai x dengan segmen garis vertikal. Pada kelompok atas (garis merah) Anda dapat memeriksa - dengan menghitung gumpalan - bahwa garis-garis ini benar-benar memisahkan kelompok menjadi dua bagian yang sama, baik secara horizontal maupun vertikal. Di grup bawah (garis biru) saya hanya memperkirakan secara visual posisi tanpa benar-benar menghitung.
Titik persimpangan adalah pusat dari dua kelompok. Satu ringkasan luar biasa dari hubungan antara nilai x dan y adalah melaporkan posisi sentral ini. Orang kemudian ingin melengkapi ringkasan ini dengan deskripsi tentang seberapa banyak data tersebar di setiap kelompok - ke kiri dan kanan, di atas dan di bawah - di sekitar pusat mereka. Untuk singkatnya, saya tidak akan melakukannya di sini, tetapi perhatikan bahwa (secara kasar) panjang segmen garis yang saya gambar mencerminkan keseluruhan spread dari masing-masing kelompok.
Akhirnya, saya menggambar garis (putus-putus) yang menghubungkan kedua pusat. Ini adalah garis regresi yang masuk akal. Apakah ini deskripsi data yang baik? Tentu saja tidak: lihat seberapa tersebar data di sekitar garis ini. Apakah ini bukti linearitas? Itu hampir tidak relevan karena deskripsi linier sangat buruk. Namun demikian, karena itu adalah pertanyaan di depan kita, mari kita atasi.
Suatu hubungan adalah linier dalam arti statistik ketika salah satu nilai y bervariasi dalam mode acak seimbang di sekitar garis atau nilai x terlihat bervariasi dalam mode acak seimbang di sekitar garis (atau keduanya).
Yang pertama tampaknya tidak menjadi kasus di sini: karena nilai-nilai y tampaknya jatuh ke dalam dua kelompok, variasi mereka tidak akan pernah tampak seimbang dalam arti secara kasar didistribusikan secara simetris di atas atau di bawah garis. (Itu dengan segera mengesampingkan kemungkinan membuang data ke dalam paket regresi linier dan melakukan kuadrat terkecil y terhadap x: jawabannya tidak akan relevan.)
Bagaimana dengan variasi dalam x? Itu lebih masuk akal: pada setiap ketinggian di plot, sebaran horizontal titik di sekitar garis putus-putus cukup seimbang. The tersebar di pencar ini tampaknya menjadi sedikit lebih besar sedikit di ketinggian yang lebih rendah (y nilai-nilai rendah), tapi mungkin itu karena ada lebih banyak poin di sana. (Semakin banyak data acak yang Anda miliki, semakin besar nilai ekstremitasnya cenderung.)
Selain itu, ketika kami memindai dari atas ke bawah, tidak ada tempat di mana hamburan horizontal di sekitar garis regresi sangat tidak seimbang: itu akan menjadi bukti non-linearitas. (Ya, mungkin sekitar y = 50 atau lebih mungkin ada terlalu banyak nilai x besar. Efek halus ini dapat diambil sebagai bukti lebih lanjut untuk memecah data menjadi dua kelompok di sekitar nilai y = 60.)
Kami telah melihatnya
Masuk akal untuk melihat x sebagai fungsi linear dari y ditambah beberapa variasi acak yang "bagus".
Ini tidak masuk akal untuk tampilan y sebagai fungsi linear dari x ditambah variasi acak.
Garis regresi dapat diperkirakan dengan memisahkan data menjadi kelompok nilai y tinggi dan kelompok nilai y rendah, menemukan pusat-pusat dari kedua kelompok dengan menggunakan median, dan menghubungkan pusat-pusat tersebut.
Garis yang dihasilkan memiliki kemiringan ke bawah, yang menunjukkan hubungan linear negatif .
Tidak ada penyimpangan yang kuat dari linearitas.
Namun demikian, karena penyebaran nilai-x di sekitar garis masih besar (dibandingkan dengan keseluruhan penyebaran nilai-x untuk memulai), kita harus mencirikan hubungan linear negatif ini sebagai "sangat lemah."
Mungkin lebih berguna untuk menggambarkan data sebagai membentuk dua awan berbentuk oval (satu untuk y di atas 60 dan yang lainnya untuk nilai y yang lebih rendah). Di dalam setiap cloud ada sedikit hubungan yang bisa dideteksi antara x dan y. Pusat-pusat awan dekat (0,29, 90) dan (0,38, 30). Awan memiliki spread yang sebanding, tetapi cloud bagian atas memiliki data yang jauh lebih sedikit daripada yang lebih rendah (mungkin 20% lebih banyak).
Dua kesimpulan ini mengkonfirmasi yang dibuat dalam pertanyaan itu sendiri bahwa ada hubungan negatif yang lemah. Yang lain melengkapi dan mendukung kesimpulan tersebut.
Satu kesimpulan yang ditarik dalam pertanyaan yang tampaknya tidak bertahan adalah pernyataan bahwa ada "pencilan." Pemeriksaan yang lebih hati-hati (seperti yang digambarkan di bawah ini) akan gagal menemukan setiap poin individu, atau bahkan kelompok poin kecil, yang secara sah dapat dianggap outlying. Setelah analisis yang cukup panjang, perhatian seseorang mungkin tertarik pada dua titik di dekat kanan tengah atau satu titik di sudut kiri bawah, tetapi bahkan ini tidak akan terlalu banyak mengubah penilaian seseorang terhadap data, apakah mereka dianggap atau tidak dianggap terpencil.
Banyak lagi yang bisa dikatakan. Langkah selanjutnya adalah menilai penyebaran awan-awan itu. Hubungan antara x dan y dalam masing-masing dua awan dapat dievaluasi secara terpisah, menggunakan teknik yang sama yang ditunjukkan di sini. Asimetri sedikit awan yang lebih rendah (lebih banyak data tampaknya muncul pada nilai y terkecil) dapat dievaluasi dan bahkan disesuaikan dengan mengekspresikan kembali nilai y (akar kuadrat mungkin bekerja dengan baik). Pada tahap ini akan masuk akal untuk mencari data yang terpencil, karena pada titik ini deskripsi akan mencakup informasi tentang nilai-nilai data khas serta penyebarannya; outlier (menurut definisi) akan terlalu jauh dari tengah untuk dijelaskan dalam hal jumlah penyebaran yang diamati.
Tak satu pun dari pekerjaan ini - yang cukup kuantitatif - membutuhkan lebih dari menemukan middle kelompok data dan melakukan beberapa perhitungan sederhana dengan mereka, dan karena itu dapat dilakukan dengan cepat dan akurat bahkan ketika data hanya tersedia dalam bentuk grafis. Setiap hasil yang dilaporkan di sini - termasuk nilai-nilai kuantitatif - dapat dengan mudah ditemukan dalam beberapa detik menggunakan sistem tampilan (seperti hardcopy dan pensil :-)) yang memungkinkan seseorang untuk membuat tanda cahaya di atas grafik.
Mari bersenang - senang!
Pertama-tama, saya tergores dengan data yang off grafik Anda.
Kemudian saya menggunakan garis berjalan lebih halus untuk menghasilkan garis regresi hitam di bawah ini dengan band CI 95% berwarna abu-abu. Grafik di bawah ini menunjukkan rentang dalam kelancaran setengah data, meskipun rentang yang lebih sempit mengungkapkan hubungan yang kurang lebih sama persis. Sedikit perubahan kemiringan di sekitar menunjukkan hubungan yang dapat diperkirakan menggunakan model linier dan menambahkan fungsi engsel linier dari kemiringan dalam regresi kuadrat terkecil nonlinier (garis merah):X
Estimasi koefisien adalah:
Saya akan mencatat bahwa sementara whuber redoubtable menyatakan bahwa tidak ada hubungan linear yang kuat, penyimpangan dari garis tersirat oleh istilah engsel berada pada urutan yang sama dengan kemiringan (yaitu 37,7), jadi saya akan dengan hormat tidak setuju bahwa kita tidak melihat hubungan nonlinier yang kuat (yaitu Ya tidak ada hubungan yang kuat, tetapi istilah nonlinier sama kuatnya dengan yang linear).X
Interpretasi
(saya telah melanjutkan dengan asumsi bahwa Anda hanya tertarik pada sebagai variabel dependen.) Nilai diprediksi sangat lemah oleh (dengan Adjusted- = 0,03). Asosiasi ini kira-kira linear, dengan sedikit penurunan kemiringan di sekitar 0,46. Residual agak miring ke kanan, mungkin karena merupakan tajam lebih rendah terikat pada nilai-nilai . Mengingat ukuran sampel , saya cenderung mentolerir pelanggaran normalitas . Lebih banyak pengamatan untuk nilai akan membantu menentukan apakah perubahan kemiringan itu nyata, atau merupakan artefak dari penurunan varianY X R 2 Y N = 170 X > 0,5 Y dalam kisaran itu.
Memperbarui dengan grafik :
(Garis merah hanyalah regresi linier dari ln (Y) pada X.)
Dalam komentar, Russ Lenth menulis: "Saya hanya ingin tahu apakah ini berlaku jika Anda memuluskan vs Distribusi miring." Ini saran yang cukup bagus, karena transformasi versus juga memberikan kesesuaian yang lebih baik bahwa garis antara dan dengan residu yang terdistribusi secara lebih simetris. Namun, baik yang disarankan dan engsel linear saya berbagi preferensi untuk hubungan antara (tidak ditransformasi) dan yang tidak dijelaskan oleh garis lurus.X Y log Y X Y X log ( Y ) X Y
Ini 2 ¢ 1,5 ¢ saya. Bagi saya fitur yang paling menonjol adalah bahwa data tiba-tiba berhenti dan 'berkumpul' di bagian bawah kisaran Y. Saya memang melihat dua (potensial) 'cluster' dan hubungan negatif umum, tetapi fitur yang paling menonjol adalah (potensial) efek lantai dan fakta bahwa bagian atas, kerapatan rendah hanya meluas di seluruh rentang X.
Karena 'cluster' samar-samar bivariat normal, model campuran normal parametrik mungkin menarik untuk dicoba. Menggunakan data @Alexis, saya menemukan bahwa tiga kluster mengoptimalkan BIC. 'Efek lantai' kepadatan tinggi dipilih sebagai kluster ketiga. Kode berikut:
library(mclust)
dframe = read.table(url("http://doyenne.com/personal/files/data.csv"), header=T, sep=",")
mc = Mclust(dframe)
summary(mc)
# ----------------------------------------------------
# Gaussian finite mixture model fitted by EM algorithm
# ----------------------------------------------------
#
# Mclust VVI (diagonal, varying volume and shape) model with 3 components:
#
# log.likelihood n df BIC ICL
# -614.4713 170 14 -1300.844 -1338.715
#
# Clustering table:
# 1 2 3
# 72 72 26
Sekarang, apa yang akan kita simpulkan dari ini? Saya tidak berpikir bahwa Mclust
hanya pengenalan pola manusia menjadi serba salah. (Padahal saya membaca tentang sebar mungkin.) Di sisi lain, tidak ada pertanyaan bahwa ini adalah post-hoc . Saya melihat apa yang saya pikir merupakan pola yang menarik dan memutuskan untuk memeriksanya. Algoritme memang menemukan sesuatu, tetapi kemudian saya hanya memeriksa apa yang saya pikir mungkin ada sehingga ibu jari saya pasti pada skala. Kadang-kadang ada kemungkinan untuk menyusun strategi untuk memitigasi hal ini (lihat jawaban luar biasa @ whuber di sini ), tetapi saya tidak tahu bagaimana cara melakukan proses seperti ini dalam kasus-kasus seperti ini. Akibatnya, saya mengambil hasil ini dengan banyak garam (saya sudah melakukan hal semacam ini cukup sering sehingga seseorang kehilangan pengocok keseluruhan)). Itu memberi saya beberapa bahan untuk dipikirkan dan didiskusikan dengan klien saya ketika kita bertemu nanti. Apa data ini? Apakah masuk akal bahwa mungkin ada efek lantai? Apakah masuk akal bahwa mungkin ada kelompok yang berbeda? Seberapa berarti / mengejutkan / menarik / penting jika itu nyata? Apakah ada data independen / dapatkah kita membuatnya nyaman untuk melakukan tes jujur terhadap kemungkinan ini? Dll
Biarkan saya menggambarkan apa yang saya lihat segera setelah saya melihatnya:
Jika kita tertarik pada distribusi bersyarat dari (yang jika sering di mana minat berfokus jika kita melihat sebagai IV dan sebagai DV), maka untuk distribusi bersyarat dari muncul bimodal dengan grup atas ( antara sekitar 70 dan 125, dengan rata-rata sedikit di bawah 100) dan kelompok yang lebih rendah (antara 0 dan sekitar 70, dengan rata-rata sekitar 30 atau lebih). Dalam setiap kelompok modal, hubungan dengan hampir datar. (Lihat garis-garis merah dan biru di bawah ini yang kira-kira digambar di mana kira-kira saya kira lokasi yang kasar)x y x ≤ 0,5 Y | x x
Kemudian dengan melihat di mana kedua kelompok itu lebih atau kurang padat di , kita dapat melanjutkan untuk mengatakan lebih banyak:
Untuk kelompok atas menghilang sepenuhnya, yang membuat rata-rata keseluruhan jatuh, dan di bawah sekitar 0,2, kelompok bawah jauh lebih sedikit padat daripada di atasnya, membuat rata-rata keseluruhan lebih tinggi.x
Di antara dua efek ini, ia menginduksi hubungan negatif yang nyata (tetapi nonlinier) antara keduanya, karena tampaknya menurun terhadap tetapi dengan wilayah yang luas, sebagian besar datar di tengah. (Lihat garis putus-putus ungu)x
Tidak diragukan lagi, penting untuk mengetahui apa itu dan , karena dengan itu mungkin akan lebih jelas mengapa distribusi bersyarat untuk mungkin bimodal dalam banyak jangkauannya (bahkan, mungkin bahkan menjadi jelas bahwa memang ada dua kelompok, yang memiliki distribusi dalam menginduksi hubungan menurun yang jelas dalam ).X Y X Y | x
Ini yang saya lihat berdasarkan inspeksi "mata-murni". Dengan sedikit bermain-main dalam sesuatu seperti program manipulasi gambar dasar (seperti yang saya gambar garisnya) kita bisa mulai mencari tahu beberapa angka yang lebih akurat. Jika kita mendigitalkan data (yang cukup sederhana dengan alat yang layak, jika kadang-kadang sedikit membosankan untuk memperbaikinya), maka kita dapat melakukan analisis yang lebih canggih dari kesan semacam itu.
Analisis eksplorasi semacam ini dapat menimbulkan beberapa pertanyaan penting (kadang-kadang yang mengejutkan orang yang memiliki data tetapi hanya menunjukkan plot), tetapi kita harus berhati-hati sejauh mana model kita dipilih oleh inspeksi tersebut - jika kami menerapkan model yang dipilih berdasarkan penampilan plot dan kemudian memperkirakan model-model tersebut pada data yang sama, kami akan cenderung menghadapi masalah yang sama yang kami dapatkan ketika kami menggunakan pemilihan model yang lebih formal dan estimasi pada data yang sama. [Ini bukan untuk menyangkal pentingnya analisis eksplorasi sama sekali - hanya saja kita harus berhati-hati terhadap konsekuensi melakukannya tanpa memperhatikan bagaimana kita melakukannya. ]
Menanggapi komentar Russ:
[sunting nanti: Untuk mengklarifikasi - Saya secara luas setuju dengan kritik Russ yang diambil sebagai tindakan pencegahan umum, dan tentu saja ada beberapa kemungkinan saya telah melihat lebih daripada yang sebenarnya ada. Saya berencana untuk kembali dan mengeditnya menjadi komentar yang lebih luas tentang pola palsu yang biasa kita identifikasi dengan mata dan cara-cara kita mungkin mulai menghindari yang terburuk dari itu. Saya percaya saya juga akan dapat menambahkan beberapa alasan mengapa saya pikir itu mungkin tidak hanya palsu dalam kasus khusus ini (misalnya melalui regressogram atau 0-order kernel smooth, meskipun tentu saja, tidak ada lebih banyak data untuk diuji, hanya ada sejauh ini bisa berjalan, misalnya, jika sampel kami tidak representatif, bahkan resampling hanya membuat kami sejauh ini.]
Saya sepenuhnya setuju kita memiliki kecenderungan untuk melihat pola palsu; ini poin yang sering saya buat di sini dan di tempat lain.
Satu hal yang saya sarankan, misalnya, ketika melihat plot residu atau plot QQ adalah untuk menghasilkan banyak plot di mana situasinya diketahui (baik sebagai hal-hal yang seharusnya dan di mana asumsi tidak berlaku) untuk mendapatkan ide yang jelas berapa banyak pola yang seharusnya diabaikan.
Berikut adalah contoh di mana plot QQ ditempatkan di antara 24 plot lainnya (yang memenuhi asumsi), agar kami dapat melihat betapa tidak lazimnya plot tersebut. Latihan semacam ini penting karena membantu kita menghindari membodohi diri sendiri dengan menafsirkan setiap gerak kecil, yang sebagian besar akan menjadi kebisingan sederhana.
Saya sering menunjukkan bahwa jika Anda dapat mengubah tayangan dengan membahas beberapa poin, kita mungkin mengandalkan tayangan yang dihasilkan oleh tidak lebih dari kebisingan.
[Namun, ketika itu jelas dari banyak titik daripada sedikit, lebih sulit untuk mempertahankan bahwa itu tidak ada di sana.]
Ketika kami tidak memiliki lebih banyak data untuk diperiksa, setidaknya kami dapat melihat apakah tayangan cenderung bertahan resampling (bootstrap distribusi bivariat dan lihat apakah hampir selalu masih ada), atau manipulasi lain di mana tayangan seharusnya tidak terlihat. jika itu kebisingan sederhana.
1) Inilah salah satu cara untuk melihat apakah kemunculan bimodalitas lebih dari sekadar kemiringan ditambah derau - apakah ini muncul dalam perkiraan kepadatan kernel? Apakah masih terlihat jika kita memplot estimasi kepadatan kernel di bawah berbagai transformasi? Di sini saya mengubahnya menjadi simetri yang lebih besar, pada 85% bandwidth default (karena kami mencoba mengidentifikasi mode yang relatif kecil, dan bandwidth default tidak dioptimalkan untuk tugas itu):
√ log(68)
2) Berikut ini cara dasar lain untuk melihat apakah lebih dari sekadar "noise":
Langkah 1: melakukan pengelompokan pada Y
Langkah 2: Membagi menjadi dua kelompok di , dan mengelompokkan dua kelompok secara terpisah, dan melihat apakah itu sangat mirip. Jika tidak ada yang terjadi pada dua bagian seharusnya tidak diharapkan untuk membagi semua yang sama.
Titik-titik dengan titik-titik dikelompokkan secara berbeda dari kelompok "semua dalam satu set" di plot sebelumnya. Saya akan melakukan lebih banyak lagi nanti, tetapi sepertinya mungkin benar-benar ada "split" horisontal di dekat posisi itu.
Saya akan mencoba regressogram atau estimator Nadaraya-Watson (keduanya merupakan estimasi lokal dari fungsi regresi, ). Saya belum menghasilkan keduanya, tapi kita akan lihat bagaimana hasilnya. Saya mungkin akan mengecualikan bagian paling ujung di mana ada sedikit data.
3) Sunting: Inilah regressogram, untuk nampan lebar 0,1 (tidak termasuk ujungnya, seperti yang saya sarankan sebelumnya):
Ini sepenuhnya konsisten dengan kesan asli saya tentang plot; itu tidak membuktikan alasan saya benar, tetapi kesimpulan saya sampai pada hasil yang sama dengan yang dilakukan regressogram.
Jika apa yang saya lihat di plot - dan alasan yang dihasilkan - adalah palsu, saya mungkin seharusnya tidak berhasil membedakan seperti ini.
(Hal berikutnya yang akan dicoba adalah penaksir Nadayara-Watson. Lalu aku mungkin akan melihat bagaimana hasilnya dalam resampling jika aku punya waktu.)
4) Kemudian edit:
Nadarya-Watson, kernel Gaussian, bandwidth 0,15:
Sekali lagi, ini secara mengejutkan konsisten dengan kesan awal saya. Berikut adalah estimator NW berdasarkan sepuluh contoh bootstrap:
Pola luas ada di sana, meskipun beberapa sampel tidak dengan jelas mengikuti deskripsi berdasarkan seluruh data. Kita melihat bahwa kasus tingkat kiri kurang pasti daripada di sebelah kanan - tingkat kebisingan (sebagian dari beberapa pengamatan, sebagian dari penyebaran luas) sedemikian rupa sehingga kurang mudah untuk mengklaim rata-rata sangat tinggi pada tingkat kiri daripada di tengah.
Kesan keseluruhan saya adalah bahwa saya mungkin tidak membodohi diri saya sendiri, karena berbagai aspek berdiri cukup baik untuk berbagai tantangan (perataan, transformasi, pemisahan menjadi subkelompok, resampling) yang akan cenderung mengaburkan mereka jika mereka hanya berisik. Di sisi lain, indikasinya adalah bahwa efeknya, meskipun secara luas konsisten dengan kesan awal saya, relatif lemah, dan mungkin terlalu banyak untuk mengklaim perubahan nyata dalam ekspektasi bergerak dari sisi kiri ke tengah.
Dan korelasinya:
> cor.test(~ x + y, data = data)
Pearson's product-moment correlation
data: x and y
t = -2.6311, df = 169, p-value = 0.009298
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
-0.33836844 -0.04977867
sample estimates:
cor
-0.1983692
> cor.test(~ x + log(y), data = data)
Pearson's product-moment correlation
data: x and log(y)
t = -2.8901, df = 169, p-value = 0.004356
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
-0.35551268 -0.06920015
sample estimates:
cor
-0.2170188
Uji korelasi menunjukkan kemungkinan ketergantungan negatif. Saya tetap tidak yakin akan segala kesembronoan (tetapi juga tidak yakin bahwa itu tidak ada).
Russ Lenth bertanya-tanya bagaimana grafik akan terlihat jika sumbu Y adalah logaritmik. Alexis menggores data, sehingga mudah untuk merencanakan dengan sumbu log:
Pada skala log, tidak ada tanda-tanda bimodality atau tren. Apakah skala log masuk akal atau tidak tergantung, tentu saja, pada detail yang diwakili oleh data. Demikian pula, apakah masuk akal untuk berpikir bahwa data mewakili pengambilan sampel dari dua populasi seperti yang ditunjukkan oleh whuber tergantung pada detailnya.
Tambahan: Berdasarkan komentar di bawah, ini adalah versi revisi:
Ya, Anda benar, hubungannya lemah, tetapi tidak nol. Saya kira positif. Namun, jangan menebak, jalankan saja regresi linier sederhana (regresi OLS) dan cari tahu! Di sana Anda akan mendapatkan kemiringan xxx yang memberi tahu Anda apa hubungannya. Dan ya, Anda memiliki outlier yang mungkin bias hasilnya. Itu bisa diatasi. Anda bisa menggunakan jarak Cook atau membuat plot leverage untuk memperkirakan efek outlier pada hubungan.
Semoga berhasil
Anda sudah memberikan beberapa intuisi untuk pertanyaan Anda dengan melihat orientasi titik data X / Y dan penyebarannya. Singkatnya, Anda benar.
Dalam istilah formal, orientasi dapat disebut sebagai tanda korelasi dan dispersi sebagai varian . Kedua tautan ini akan memberi Anda lebih banyak informasi tentang cara menafsirkan hubungan linear antara dua variabel.
Ini adalah pekerjaan rumahan. Jadi, jawaban untuk pertanyaan Anda sederhana. Jalankan regresi linear Y pada X, Anda akan mendapatkan sesuatu seperti ini:
Coefficient Standard Er t Stat
C 53.14404163 6.522516463 8.147781908
X -44.8798926 16.80565866 -2.670522684
Jadi, t-statistik signifikan pada variabel X pada kepercayaan 99%. Oleh karena itu, Anda dapat mendeklarasikan variabel memiliki semacam hubungan.
Apakah ini linier? Tambahkan variabel X2 = (X-mean (X)) ^ 2, dan mundur lagi.
Coefficient Stand Err t Stat
C 53.46173893 6.58938281 8.11331508
X -43.9503443 17.01532569 -2.582985779
X2 -44.601130 114.1461801 -0.390736951
Koefisien pada X masih signifikan, tetapi X2 tidak. X2 mewakili nonlinier. Jadi, Anda menyatakan bahwa hubungan itu tampaknya linier.
Di atas adalah untuk pekerjaan rumahan.
Dalam kehidupan nyata, segalanya lebih rumit. Bayangkan, ini adalah data di kelas siswa. Y - bench press dalam pound, X - waktu dalam beberapa menit menahan napas sebelum bench press. Saya akan meminta jenis kelamin siswa. Hanya untuk bersenang-senang, mari; tambahkan variabel lain, Z, dan katakanlah Z = 1 (perempuan) untuk semua Y <60, dan Z = 0 (laki-laki) ketika Y> = 60. Jalankan regresi dengan tiga variabel:
Coefficient Stand Error t Stat
C 92.93031357 3.877092841 23.969071
X -6.55246715 8.977138488 -0.72990599
X2 -43.6291362 59.06955097 -0.738606194
Z -63.3231270 2.960160265 -21.39179009
Apa yang terjadi?! "Hubungan" antara X dan Y telah menghilang! Oh, sepertinya hubungan itu palsu karena variabel pengganggu , jenis kelamin.
Apa moral dari cerita ini? Anda perlu tahu apa data untuk "menjelaskan" hubungan ", atau bahkan untuk membangunnya di tempat pertama. Dalam hal ini, saat saya diberitahu bahwa data tentang aktivitas fisik siswa, saya akan segera meminta jenis kelamin mereka, dan bahkan tidak akan repot-repot menganalisis data tanpa mendapatkan variabel gender.
Di sisi lain, jika Anda diminta untuk "menggambarkan" plot pencar, maka semuanya berjalan. Korelasi, kecocokan linier, dll. Untuk pekerjaan rumahan Anda, dua langkah pertama di atas harus memadai: lihat koefisien X (hubungan), lalu X ^ 2 (linearitas). Pastikan Anda mende-mean-kan variabel X (kurangi mean).