Saya suka aturan praktis ini:
Jika Anda membutuhkan garis untuk memandu mata (yaitu untuk menunjukkan tren bahwa tanpa garis tidak akan terlihat dengan jelas), Anda tidak harus meletakkan garis.
Manusia sangat pandai mengenali pola (kita agak di sisi melihat tren yang tidak ada daripada melewatkan tren yang ada). Jika kita tidak bisa mendapatkan tren tanpa garis, kita bisa yakin bahwa tidak ada tren yang dapat ditampilkan secara meyakinkan dalam kumpulan data.
Berbicara tentang grafik kedua, satu-satunya indikasi ketidakpastian titik pengukuran Anda adalah dua kotak merah C: O 1.2 pada 700 ° C. Penyebaran dua ini berarti bahwa saya tidak akan menerima mis
- bahwa ada tren sama sekali untuk C: O 1.2
- bahwa ada perbedaan antara 2.0 dan 3.6
- dan pasti model melengkung overfitting data.
tanpa alasan yang sangat bagus diberikan. Namun, itu akan kembali menjadi model.
sunting: jawaban atas komentar Ivan:
Saya ahli kimia dan saya akan mengatakan bahwa tidak ada pengukuran tanpa kesalahan - apa yang dapat diterima akan tergantung pada eksperimen dan instrumen.
Jawaban ini bukan menentang menunjukkan kesalahan eksperimental tetapi semua untuk menunjukkan dan memperhitungkannya.
Gagasan di balik alasan saya adalah bahwa grafik menunjukkan tepat satu pengukuran berulang, jadi ketika diskusi adalah seberapa rumit suatu model harus cocok (yaitu garis horizontal, garis lurus, kuadrat, ...) ini dapat memberi kita gambaran tentang pengukuran kesalahan. Dalam kasus Anda, ini berarti bahwa Anda tidak akan dapat menyesuaikan kuadrat (spline) yang bermakna, bahkan jika Anda memiliki model keras (misalnya persamaan termodinamika atau kinetik) yang menunjukkan bahwa itu harus kuadratik - Anda hanya tidak memiliki cukup data .
Untuk menggambarkan ini:
df <-data.frame (T = c ( 700, 700, 800, 900, 700, 800, 900, 700, 800, 900),
C.to.O = factor (c ( 1.2, 1.2, 1.2, 1.2, 2 , 2 , 2 , 3.6, 3.6, 3.6)),
tar = c (21.5, 18.5, 19.5, 19, 15.5, 15 , 6 , 16.5, 9, 9))
Berikut ini adalah kecocokan linear bersama dengan interval kepercayaan 95% untuk masing-masing rasio C: O:
ggplot (df, aes (x = T, y = tar, col = C.to.O)) + geom_point () +
stat_smooth (method = "lm") +
facet_wrap (~C.to.O)
Perhatikan bahwa untuk rasio C: O yang lebih tinggi, interval kepercayaan berkisar jauh di bawah 0. Ini berarti bahwa asumsi implisit dari model linear salah. Namun, Anda dapat menyimpulkan bahwa model linier untuk konten C: O yang lebih tinggi sudah sesuai.
Jadi, mundur dan pas dengan nilai konstan saja (yaitu tidak ada ketergantungan T):
ggplot (df, aes (x = T, y = tar, col = C.to.O)) + geom_point () +
stat_smooth (method = "lm", formula = y ~ 1) +
facet_wrap (~C.to.O)
Komplemen adalah untuk memodelkan tidak ada ketergantungan pada C: O:
ggplot (df, aes (x = T, y = tar)) + geom_point (aes (col = C.to.O)) +
stat_smooth (method = "lm", formula = y ~ x)
Namun, interval kepercayaan akan mencakup garis horizontal atau bahkan sedikit naik.
Anda dapat melanjutkan dan mencoba mis. Memungkinkan offset yang berbeda untuk tiga rasio C: O, tetapi menggunakan kemiringan yang sama.
Namun, sudah beberapa pengukuran lagi akan secara drastis memperbaiki situasi - perhatikan seberapa sempit interval kepercayaan untuk C: O = 1: 1, di mana Anda memiliki 4 pengukuran, bukan hanya 3.
Kesimpulan: jika Anda membandingkan poin saya di mana kesimpulan yang saya akan skeptis, mereka membaca terlalu banyak ke beberapa poin yang tersedia!