Saya membaca Black Swan beberapa tahun yang lalu. Gagasan Black Swan bagus dan serangan terhadap kesalahan ludis (melihat hal-hal seolah-olah itu adalah permainan dadu, dengan probabilitas yang dapat diketahui) adalah baik tetapi statistik salah mengartikan, dengan masalah utama adalah klaim yang salah bahwa semua statistik berantakan jika variabel tidak terdistribusi secara normal. Saya cukup jengkel dengan aspek ini untuk menulis surat kepada Taleb di bawah ini:
Dr Taleb yang terhormat
Saya baru-baru ini membaca "The Black Swan". Seperti Anda, saya adalah penggemar Karl Popper, dan saya menemukan diri saya setuju dengan banyak hal yang ada di dalamnya. Saya pikir eksposisi Anda tentang kesalahan ludis pada dasarnya adalah suara, dan menarik perhatian pada masalah yang nyata dan umum. Namun, saya pikir sebagian besar Bagian III membuat keseluruhan argumen Anda buruk, bahkan mungkin mendiskreditkan sisa buku ini. Ini memalukan, karena saya pikir argumen yang berkaitan dengan Black Swans dan "tidak diketahui" berdiri di atas jasa mereka tanpa bergantung pada beberapa kesalahan dalam Bagian III.
Masalah utama yang ingin saya tunjukkan - dan mencari tanggapan Anda, terutama jika saya memiliki masalah yang salah paham - adalah kesalahan representasi Anda dalam bidang statistik terapan. Dalam penilaian saya, bab 14, 15 dan 16 sebagian besar bergantung pada argumen manusia jerami, salah menggambarkan statistik dan ekonometrika. Bidang ekonometrik yang Anda gambarkan bukanlah bidang yang saya ajarkan ketika saya mempelajari statistik terapan, ekonometrik, dan teori risiko aktuaria (di Australian National University, tetapi menggunakan teks yang tampaknya cukup standar). Masalah-masalah yang Anda ajukan (seperti keterbatasan distribusi Gaussian) dipahami dengan baik dan benar-benar diajarkan, bahkan di tingkat sarjana.
Misalnya, Anda berusaha keras untuk menunjukkan bagaimana distribusi pendapatan tidak mengikuti distribusi normal, dan menyajikan ini sebagai argumen terhadap praktik statistik secara umum. Tidak ada ahli statistik yang kompeten yang akan mengklaim demikian, dan cara-cara untuk mengatasi masalah ini sudah mapan. Hanya dengan menggunakan teknik-teknik dari tingkat "tahun pertama ekonometrik" yang paling dasar, misalnya, mentransformasikan variabel dengan mengambil logaritma akan membuat contoh numerik Anda terlihat jauh kurang meyakinkan. Transformasi seperti itu pada kenyataannya akan membatalkan sebagian besar dari apa yang Anda katakan, karena varians dari variabel asli akan meningkat dengan meningkatnya rata-rata.
Saya yakin ada beberapa ahli ekonometrika yang tidak kompeten yang melakukan regresi OLS dll dengan variabel respons yang tidak diubah seperti yang Anda katakan, tetapi itu hanya membuat mereka tidak kompeten dan menggunakan teknik yang sudah mapan menjadi tidak pantas. Mereka pasti akan gagal bahkan dalam kursus sarjana, yang menghabiskan banyak waktu mencari cara yang lebih tepat untuk memodelkan variabel seperti pendapatan, yang mencerminkan distribusi yang diamati (non-Gaussian) yang sebenarnya.
Keluarga Generalized Linear Models adalah satu set teknik yang dikembangkan sebagian untuk mengatasi masalah yang Anda ajukan. Banyak keluarga distribusi eksponensial (mis. Distribusi Gamma, Eksponensial, dan Poisson) bersifat asimetris dan memiliki varian yang meningkat ketika pusat distribusi meningkat, mengatasi masalah yang Anda tunjukkan dengan menggunakan distribusi Gaussian. Jika ini masih terlalu terbatas, dimungkinkan untuk menjatuhkan "bentuk" yang sudah ada sebelumnya dan hanya menentukan hubungan antara rata-rata distribusi dan variansnya (misalnya memungkinkan varians meningkat secara proporsional ke kuadrat rata-rata), menggunakan metode estimasi "quasi-likelihood".
Tentu saja, Anda dapat berargumen bahwa bentuk pemodelan ini masih terlalu sederhana dan jebakan intelektual yang menidurkan kita untuk berpikir masa depan akan seperti masa lalu. Anda mungkin benar, dan saya pikir kekuatan buku Anda adalah membuat orang seperti saya mempertimbangkan hal ini. Tetapi Anda membutuhkan argumen yang berbeda dengan argumen yang Anda gunakan dalam bab 14-16. Bobot besar yang Anda tempatkan pada fakta bahwa varian distribusi Gaussian adalah konstan terlepas dari rata-rata (yang menyebabkan masalah dengan skalabilitas), misalnya, tidak valid. Begitu juga penekanan Anda pada fakta bahwa distribusi kehidupan nyata cenderung lebih asimetris daripada kurva lonceng.
Pada dasarnya, Anda telah mengambil satu penyederhanaan berlebihan dari pendekatan yang paling mendasar untuk statistik (pemodelan naif variabel mentah memiliki distribusi Gaussian) dan menunjukkan, pada akhirnya, (dengan benar) kekurangan dari pendekatan yang disederhanakan. Anda kemudian menggunakan ini untuk membuat celah untuk mendiskreditkan seluruh bidang. Entah ini kesalahan serius dalam logika, atau teknik propaganda. Sangat disayangkan karena mengurangi keseluruhan argumen Anda, yang sebagian besar (seperti yang saya katakan) saya anggap valid dan persuasif.
Saya akan tertarik untuk mendengar apa yang Anda katakan sebagai tanggapan. Saya ragu saya orang pertama yang mengangkat masalah ini.
Dengan hormat
pe