Sepertinya Anda menggunakan R
. Jika demikian, perhatikan bahwa Anda dapat mengidentifikasi titik di sebar menggunakan ? Identifikasi . Saya pikir ada beberapa hal yang terjadi di sini. Pertama, Anda memiliki titik yang sangat berpengaruh pada plot LN_RT_vol_in ~ LN_AT_vol_in
(yang disorot) sekitar (0,2, 1,5). Ini sangat mungkin menjadi residu terstandarisasi yaitu sekitar -3,7. Efek dari titik itu adalah untuk meratakan garis regresi, memiringkannya lebih horizontal daripada garis naik tajam yang seharusnya Anda dapatkan. Efek dari itu adalah bahwa semua residu Anda akan diputar berlawanan arah jarum jam relatif terhadap tempat mereka seharusnya berada di dalam residual ~ predicted
plot (setidaknya ketika berpikir dalam hal kovariat itu dan mengabaikan yang lain).
Meskipun demikian, garis lurus residual yang Anda lihat masih ada di sana, karena mereka ada di suatu tempat di awan 3 dimensi dari data asli Anda. Mereka mungkin sulit ditemukan di salah satu plot marginal. Anda dapat menggunakan fungsi identifikasikan () untuk membantu, dan Anda juga dapat menggunakan paket rgl untuk membuat sebaran 3D yang dinamis yang dapat Anda putar dengan bebas menggunakan mouse. Namun, perhatikan bahwa residual garis lurus semuanya di bawah 0 dalam nilai prediksi mereka, dan memiliki residu di bawah 0 (yaitu, mereka di bawah garis regresi pas); itu memberi Anda petunjuk besar ke mana harus mencari. Melihat lagi plot AndaLN_RT_vol_in ~ LN_AT_vol_in
, Saya pikir saya dapat melihat mereka. Ada sekelompok titik yang berjalan lurus secara diagonal ke bawah dan ke kiri dari sekitar (-.01, -1.00) di tepi bawah awan titik di wilayah itu. Saya menduga itu adalah poin yang dimaksud.
Dengan kata lain, residu terlihat seperti itu karena mereka sudah berada di suatu tempat dalam ruang data. Intinya, inilah yang disarankan oleh @ttnphns, tapi saya tidak berpikir itu cukup konstan di salah satu dimensi asli - ini adalah konstan dalam dimensi di sudut sumbu asli Anda. Saya lebih jauh setuju dengan @MichaelChernick bahwa kelurusan yang tampak dalam plot residual ini mungkin tidak berbahaya, tetapi data Anda tidak benar-benar sangat normal. Mereka agak normal-ish, bagaimanapun, dan Anda tampaknya memiliki jumlah data yang layak, sehingga CLT dapat melindungi Anda, tetapi Anda mungkin ingin bootstrap untuk berjaga-jaga. Akhirnya, saya khawatir bahwa 'outlier' yang mendorong hasil Anda; a kuat pendekatan mungkin layak.