Saya telah melakukan banyak penelitian tentang pencilan, khususnya ketika saya mengerjakan validasi data energi di Oak Ridge dari tahun 1978 hingga 1980. Ada tes formal untuk pencilan univariat untuk data normal (misalnya, uji Grubb dan uji rasio Dixon). Ada tes untuk pencilan multivarian dan seri waktu. Buku karya Barnett dan Lewis tentang "Pencilan Data Statistik" adalah Alkitab tentang pencilan dan mencakup hampir segalanya.
Ketika saya berada di Oak Ridge mengerjakan validasi data, kami memiliki banyak set data multivarian. Untuk outlier univariat ada arah untuk ekstrem (sangat di atas rata-rata dan sangat di bawah rata-rata). Tetapi untuk outlier multivarian ada banyak arah untuk mencari outlier. Filosofi kami adalah untuk mempertimbangkan apa tujuan penggunaan data. Jika Anda mencoba memperkirakan parameter tertentu seperti korelasi bivariat atau koefisien regresi, maka Anda ingin melihat ke arah yang memberikan efek terbesar pada parameter bunga. Pada waktu itu saya telah membaca karya Mallows yang tidak dipublikasikan tentang fungsi pengaruh. Penggunaan fungsi pengaruh untuk mendeteksi outlier dicakup dalam buku analisis multivariat Gnanadesikan. Tentu saja Anda dapat menemukannya di Barnett dan Lewis juga.
Fungsi pengaruh untuk parameter didefinisikan pada titik-titik dalam ruang multivariat dari pengamatan dan pada dasarnya mengukur perbedaan antara estimasi parameter ketika titik data dimasukkan dibandingkan dengan ketika ditinggalkan. Anda dapat melakukan estimasi tersebut dengan setiap titik sampel tetapi biasanya Anda dapat memperoleh bentuk fungsional yang bagus untuk fungsi pengaruh yang memberikan wawasan dan perhitungan yang lebih cepat.
Misalnya dalam makalah saya di American Journal of Matematika dan Ilmu Manajemen pada tahun 1982 "Fungsi Pengaruh dan Penerapannya pada Validasi Data" Saya menunjukkan rumus analitik untuk fungsi pengaruh untuk korelasi bivariat dan bahwa kontur pengaruh konstan adalah hiperbola. Jadi kontur menunjukkan arah pada bidang di mana fungsi pengaruh meningkat paling cepat.
Dalam makalah saya, saya menunjukkan bagaimana kami menerapkan fungsi pengaruh untuk korelasi bivariat dengan data FPC Form 4 tentang pembangkitan dan konsumsi energi. Ada korelasi positif yang sangat tinggi antara keduanya dan kami menemukan beberapa outlier yang sangat berpengaruh pada estimasi korelasi. Investigasi lebih lanjut menunjukkan bahwa setidaknya salah satu poin salah dan kami dapat memperbaikinya.
Tapi poin penting yang selalu saya sebutkan ketika membahas outlier adalah bahwa penolakan otomatis itu salah. Pencilan tidak selalu merupakan kesalahan dan terkadang memberikan informasi penting tentang data. Data yang valid tidak boleh dihapus hanya karena tidak sesuai dengan teori realitas kami. Apakah itu sulit dilakukan atau tidak, alasan mengapa pencilan terjadi harus selalu diselidiki.
Saya harus menyebutkan bahwa ini bukan pertama kalinya outlier multivarian telah dibahas di situs ini. Pencarian outlier mungkin akan menimbulkan beberapa pertanyaan di mana outlier multivariat telah dibahas. Saya tahu bahwa saya telah merujuk makalah saya dan buku-buku ini sebelumnya dan memberikan tautan kepada mereka.
Juga ketika penolakan outlier dibahas banyak dari kita di situs ini telah merekomendasikan menentangnya terutama jika itu dilakukan hanya berdasarkan tes statistik. Peter Huber sering menyebutkan estimasi kuat sebagai alternatif penolakan outlier. Idenya adalah bahwa prosedur yang kuat akan menurunkan bobot outlier mengurangi efeknya pada estimasi tanpa langkah berat menolaknya dan menggunakan estimator yang tidak kuat.
Fungsi pengaruh sebenarnya dikembangkan oleh Frank Hampel dalam disertasi PhD-nya pada awal 1970-an (saya kira 1974). Idenya sebenarnya adalah untuk menggunakan fungsi pengaruh untuk mengidentifikasi penduga yang tidak kuat terhadap outlier dan untuk membantu mengembangkan penduga yang kuat.
Berikut adalah tautan ke diskusi sebelumnya tentang topik ini di mana saya menyebutkan beberapa pekerjaan saya tentang mendeteksi pencilan dalam deret waktu menggunakan fungsi pengaruh.