Ini adalah situasi yang sederhana; mari kita simpan begitu. Kuncinya adalah fokus pada apa yang penting:
Memperoleh deskripsi data yang bermanfaat.
Menilai penyimpangan individu dari deskripsi itu.
Menilai kemungkinan peran dan pengaruh peluang dalam interpretasi.
Mempertahankan integritas dan transparansi intelektual.
Masih banyak pilihan dan banyak bentuk analisis akan valid dan efektif. Mari kita ilustrasikan satu pendekatan di sini yang dapat direkomendasikan untuk kepatuhannya pada prinsip-prinsip kunci ini.
Untuk menjaga integritas, mari kita bagi data menjadi dua: pengamatan dari tahun 1972 hingga 1990 dan dari tahun 1991 hingga 2009 (masing-masing 19 tahun). Kami akan mencocokkan model pada paruh pertama dan kemudian melihat seberapa baik cocok bekerja dalam memproyeksikan babak kedua. Ini memiliki keuntungan tambahan untuk mendeteksi perubahan signifikan yang mungkin terjadi selama paruh kedua.
Untuk mendapatkan deskripsi yang bermanfaat, kita perlu (a) menemukan cara untuk mengukur perubahan dan (b) menyesuaikan model paling sederhana yang sesuai untuk perubahan tersebut, mengevaluasinya, dan secara iteratif cocok dengan yang lebih rumit untuk mengakomodasi penyimpangan dari model sederhana.
(a) Anda memiliki banyak pilihan: Anda dapat melihat data mentah; Anda dapat melihat perbedaan tahunan mereka; Anda dapat melakukan hal yang sama dengan logaritma (untuk menilai perubahan relatif); Anda dapat menilai tahun hidup yang hilang atau harapan hidup relatif (RLE); atau banyak hal lainnya. Setelah beberapa pemikiran, saya memutuskan untuk mempertimbangkan RLE, yang didefinisikan sebagai rasio harapan hidup di Cohort B relatif terhadap yang (referensi) Cohort A. Untungnya, seperti yang ditunjukkan grafik, harapan hidup di Cohort A meningkat secara teratur di sebuah kandang mode dari waktu ke waktu, sehingga sebagian besar variasi yang tampak acak di RLE akan disebabkan oleh perubahan dalam Cohort B.
(B) Model yang paling sederhana untuk memulai adalah tren linier. Mari kita lihat seberapa baik kerjanya.
Poin biru gelap dalam plot ini adalah data yang disimpan untuk pemasangan; titik emas ringan adalah data selanjutnya, tidak digunakan untuk fit. Garis hitam cocok, dengan kemiringan 0,009 / tahun. Garis putus-putus adalah interval prediksi untuk nilai masa depan individu.
Secara keseluruhan, kecocokan terlihat bagus: pemeriksaan residu (lihat di bawah) tidak menunjukkan perubahan penting dalam ukurannya dari waktu ke waktu (selama periode data 1972-1990). (Ada beberapa indikasi bahwa mereka cenderung lebih besar sejak dini, ketika harapan hidup rendah. Kita dapat menangani komplikasi ini dengan mengorbankan beberapa kesederhanaan, tetapi manfaat untuk memperkirakan tren tidak mungkin menjadi besar.) Hanya ada petunjuk terkecil korelasi serial (diperlihatkan oleh beberapa aliran positif dan negatif residual), tetapi jelas ini tidak penting. Tidak ada outlier, yang akan ditunjukkan oleh poin di luar band prediksi.
Satu kejutan adalah bahwa pada tahun 2001 nilai tiba-tiba jatuh ke band prediksi yang lebih rendah dan tetap di sana: sesuatu yang agak tiba-tiba dan besar terjadi dan bertahan.
Berikut adalah residu, yang merupakan penyimpangan dari deskripsi yang disebutkan sebelumnya.
Karena kami ingin membandingkan residu dengan 0, garis vertikal ditarik ke level nol sebagai alat bantu visual. Sekali lagi, titik biru menunjukkan data yang digunakan untuk fit. Emas ringan adalah residu untuk data yang jatuh di dekat batas prediksi yang lebih rendah, pasca-2000.
Dari gambar ini kita dapat memperkirakan bahwa efek perubahan 2000-2001 adalah sekitar -0,07 . Ini mencerminkan penurunan tiba-tiba 0,07 (7%) dari masa hidup penuh dalam Cohort B. Setelah penurunan itu, pola horizontal residual menunjukkan bahwa tren sebelumnya terus berlanjut, tetapi pada level yang lebih rendah yang baru. Bagian dari analisis ini harus dianggap sebagai eksplorasi : itu tidak direncanakan secara khusus, tetapi muncul karena perbandingan mengejutkan antara data yang disimpan (1991-2009) dan kesesuaian dengan sisa data.
10- 7
Tampaknya tidak ada alasan untuk mencocokkan model yang lebih rumit dengan data ini, setidaknya tidak untuk tujuan memperkirakan apakah ada tren asli dalam RLE dari waktu ke waktu: ada satu. Kami dapat melangkah lebih jauh dan membagi data menjadi nilai sebelum 2001 dan nilai pasca 2000 untuk menyempurnakan estimasi kamitren, tetapi tidak sepenuhnya jujur untuk melakukan tes hipotesis. Nilai-p akan secara artifisial rendah, karena pengujian pemisahan tidak direncanakan sebelumnya. Tetapi sebagai latihan eksplorasi, estimasi seperti itu baik-baik saja. Pelajari semua yang Anda bisa dari data Anda! Berhati-hatilah untuk tidak menipu diri sendiri dengan overfitting (yang hampir pasti akan terjadi jika Anda menggunakan lebih dari setengah lusin parameter atau menggunakan teknik pemasangan otomatis), atau pengintaian data: tetap waspada terhadap perbedaan antara konfirmasi formal dan informal (tetapi berharga) eksplorasi data.
Mari kita simpulkan:
Dengan memilih ukuran harapan hidup (RLE) yang tepat, memegang setengah data, memasang model sederhana, dan menguji model itu terhadap data yang tersisa, kami telah menetapkan dengan keyakinan tinggi bahwa : ada tren yang konsisten; telah dekat dengan linear selama periode waktu yang lama; dan ada penurunan RLE yang tiba-tiba pada tahun 2001.
Model kami sangat pelit : hanya membutuhkan dua angka (kemiringan dan intersep) untuk menggambarkan data awal secara akurat. Perlu yang ketiga (tanggal istirahat, 2001) untuk menggambarkan keberangkatan yang jelas tapi tidak terduga dari deskripsi ini. Tidak ada outlier yang berhubungan dengan deskripsi tiga parameter ini. Model ini tidak akan ditingkatkan secara substansial dengan mengkarakterisasi korelasi serial (fokus teknik deret waktu secara umum), mencoba menggambarkan deviasi individu kecil (residu) yang diperlihatkan, atau memperkenalkan kecocokan yang lebih rumit (seperti menambahkan komponen waktu kuadratik) atau memodelkan perubahan ukuran residu dari waktu ke waktu).
Tren telah 0,009 RLE per tahun . Ini berarti bahwa setiap tahun, harapan hidup dalam Cohort B telah memiliki 0,009 (hampir 1%) dari harapan hidup normal yang ditambahkan. Selama masa studi (37 tahun), itu akan berjumlah 37 * 0,009 = 0,34 = sepertiga dari peningkatan seumur hidup penuh. Kemunduran pada tahun 2001 mengurangi kenaikan itu menjadi sekitar 0,28 seumur hidup dari tahun 1972 hingga 2009 (meskipun selama periode itu, harapan hidup secara keseluruhan meningkat 10%).
Meskipun model ini dapat ditingkatkan, kemungkinan akan membutuhkan lebih banyak parameter dan peningkatannya tidak mungkin menjadi besar (seperti perilaku hampir acak dari residual membuktikan). Maka, secara keseluruhan, kita harus puas untuk sampai pada deskripsi data yang ringkas, bermanfaat, dan sederhana untuk pekerjaan analitis yang sangat sedikit.