Saya mencoba memisahkan dua kelompok nilai dari satu set data. Saya dapat berasumsi bahwa salah satu populasi terdistribusi secara normal dan setidaknya setengah dari ukuran sampel. Nilai yang kedua sama-sama lebih rendah atau lebih tinggi dari nilai dari yang pertama (distribusi tidak diketahui). Yang saya coba lakukan adalah menemukan batas atas dan bawah yang akan menyertakan populasi yang berdistribusi normal dari yang lain.
Asumsi saya memberi saya titik awal:
- semua titik dalam kisaran interkuartil sampel berasal dari populasi yang berdistribusi normal.
Saya mencoba untuk menguji outlier mengambil mereka dari sisa sampel sampai mereka tidak masuk ke dalam 3 st.dev dari populasi yang terdistribusi normal. Yang tidak ideal, tetapi tampaknya menghasilkan hasil yang cukup masuk akal.
Apakah asumsi saya secara statistik masuk akal? Apa cara yang lebih baik untuk melakukan ini?
ps tolong perbaiki tag seseorang.