Katakanlah saya sedang mempelajari bagaimana bunga bakung merespons berbagai kondisi tanah. Saya telah mengumpulkan data tentang pH tanah versus ketinggian matang bakung. Saya mengharapkan hubungan linier, jadi saya menjalankan regresi linier.
Namun, saya tidak menyadari ketika saya memulai penelitian saya bahwa populasi sebenarnya mengandung dua varietas bakung, yang masing-masing merespon sangat berbeda terhadap pH tanah. Jadi grafiknya mengandung dua hubungan linier yang berbeda:
Saya bisa melihat dan memisahkannya secara manual, tentu saja. Tetapi saya bertanya-tanya apakah ada pendekatan yang lebih ketat.
Pertanyaan:
Apakah ada tes statistik untuk menentukan apakah satu set data akan lebih cocok dengan satu baris atau dengan garis N?
Bagaimana saya menjalankan regresi linier agar sesuai dengan garis N? Dengan kata lain, bagaimana cara memisahkan data yang terkoordinasi?
Saya bisa memikirkan beberapa pendekatan kombinatorial, tetapi mereka tampaknya mahal secara komputasi.
Klarifikasi:
Keberadaan dua varietas tidak diketahui pada saat pengumpulan data. Variasi masing-masing bakung tidak diamati, tidak dicatat, dan tidak dicatat.
Tidak mungkin memulihkan informasi ini. Bakung telah mati sejak saat pengumpulan data.
Saya memiliki kesan bahwa masalah ini adalah sesuatu yang mirip dengan menerapkan algoritma pengelompokan, di mana Anda hampir perlu mengetahui jumlah cluster sebelum Anda mulai. Saya percaya bahwa dengan set data APAPUN, meningkatkan jumlah baris akan mengurangi kesalahan total rms. Secara ekstrem, Anda dapat membagi set data Anda menjadi pasangan sewenang-wenang dan cukup menggambar garis melalui masing-masing pasangan. (Misalnya, jika Anda memiliki 1000 titik data, Anda dapat membaginya menjadi 500 pasangan yang sewenang-wenang dan menggambar garis melalui masing-masing pasangan.) Kesesuaian akan tepat dan kesalahan rms akan menjadi nol. Tapi bukan itu yang kita inginkan. Kami ingin jumlah baris yang "benar".