Hubungan antara ekonometrik dan pembelajaran mesin


3

Dalam pemahaman saya, kegunaan ekonometrik versus pembelajaran mesin umumnya dianggap sebagai penelitian kausalitas.

Jika saya tidak salah, ketika kita mengesampingkan ekonomi eksperimental, standar emas untuk membuktikan kausalitas adalah dengan menggunakan Variabel Intrumental. Tetapi dalam praktiknya telah ditunjukkan bahwa menemukan IV yang relevan seringkali tidak mungkin, dan penulis akhirnya mengambil "IV" terbaik yang dapat mereka temukan.

Masalah: Variabel ini memiliki peluang tinggi untuk tidak menjadi eksogen, tetapi kita tidak dapat memverifikasinya ketika IV bergantung pada variabel seperti kebahagiaan, misalnya. Karena kita tidak harus memverifikasi ketergantungan itu, ilmu berhenti di sini.

JADI, saya salah mengatakan bahwa dalam kebanyakan kasus, ekonometrik tidak dapat secara ilmiah menetapkan hubungan sebab akibat? Dalam hal itu mengapa menggunakan ekonometrik tradisional alih-alih teknik pembelajaran mesin modern?

Jawaban:


6

I.) 2 Prinsip ekonometrik berpotensi bermanfaat dibandingkan dengan Machine Learning. (lihat Makalah Hal R Varian 2014: https://pubs.aeaweb.org/doi/pdf/10.1257/jep.28.2.3 )

A.) Ketika Anda menyarankan pencarian kausalitas adalah satu keuntungan tetapi tidak seperti apa yang Anda pikirkan, bahkan jika kausalitas kadang-kadang sulit untuk diukur, tetap sangat berguna dan fungsional.

Tetapi pertama-tama, ketika Anda menyarankan bahwa variabel Instrumental adalah satu-satunya alat yang tersedia yang berfungsi untuk sebagian besar kasus dan memungkinkan inferensi kausal, saya pikir ada beberapa teknik lagi yang masih bisa diterapkan untuk mengukur kausalitas dalam menanggapi pengobatan, manipulasi , atau intervensi dan masih relevan (tidak seperti percobaan alami seperti yang Anda lakukan karena penerapan langsung terbatas untuk sebagian besar kasus) di sebagian besar situasi seperti:

● percobaan eksplisit ● diskontinuitas regresi ● perbedaan perbedaan ● estimasi struktural

Sebagai contoh, Anda dapat menyelidiki hubungan sebab akibat dengan teknik tesis atau variabel instrumental karena walaupun teknik tersebut tunduk pada masalah bias dan korelasi (terlebih lagi karena data besar karena peningkatan ukuran dataset membatasi kegunaan metode variabel instrumental, tergantung pada kekuatan instrumen dan tingkat perancu), masih memberi petunjuk untuk menyelidiki hubungan sebab akibat. Dengan cara itu, misalnya, memungkinkan deteksi kontrafaktual kondisional (jika-klausa yang bertentangan dengan fakta) sementara juga memeriksa keberadaan bias seleksi potensial.

Apa itu kontrafakta bersyarat:

Jika hujan, maka dia ada di dalam. : Rain = Variabel Indikatif

Jika hujan, maka dia akan berada di dalam. : Rain = Variabel kontrafakta Bersyarat

Oleh karena itu, semakin baik model prediktif yang Anda miliki untuk kontrafaktual, semakin baik Anda dapat memperkirakan efek kausal. Dengan demikian, meskipun model prediksi tidak selalu memungkinkan seseorang untuk menyimpulkan sesuatu tentang kausalitas dengan sendirinya, model tersebut dapat membantu dalam memperkirakan dampak kausal dari suatu intervensi ketika itu terjadi. Karena itu dapat menyoroti sekelompok kontrafaktual bersyarat yang dapat digunakan sebagai variabel kausal potensial untuk menjalankan tes, untuk akhirnya menentukan kausalitas dalam dataset yang diberikan untuk melakukan pengambilan keputusan yang baik (bersihkan dari masalah yang membingungkan). Jika tidak, setidaknya, itu memberi Anda beberapa petunjuk untuk melakukan penyelidikan yang lebih dalam untuk memahami masalah: ada yang salah dengan teorinya? ada yang salah dengan model ekonometrik saya? ada yang salah dengan data saya?

Untuk wawasan lebih lanjut tentang pro kontra teknik inferensial kausal yang berbeda dalam ekonometrik:

https://www.jstor.org/stable/pdf/44234997.pdf?refreqid=excelsior%3A18bacfd86299dcf19e7f1f13d9c52022

B.) Kecuali hubungan sebab akibat, ketidakpastian model adalah keunggulan lain dari Ekonometrik dibandingkan dengan ML.

Landasan probabilitas ekonometrik adalah kekuatan dengan cara yang memungkinkan interpretabilitas sebagian besar model dan parameternya (menghindari fenomena kotak hitam) dan memberikan quantisation ketidakpastian (dengan interval percaya diri). Tujuannya biasanya untuk menunjukkan bahwa perkiraan beberapa parameter yang menarik tidak terlalu sensitif terhadap spesifikasi yang digunakan: bagaimana perkiraan parameter bervariasi sebagai model yang berbeda digunakan. Pertanyaan ini menggambarkan bentuk sederhana dari ketidakpastian model. Dalam periode "data besar" ini, tampaknya aneh untuk fokus pada ketidakpastian sampel, yang cenderung kecil dengan kumpulan data besar, sementara sama sekali mengabaikan ketidakpastian model, yang mungkin cukup besar. Salah satu cara untuk mengatasinya adalah secara eksplisit tentang memeriksa bagaimana estimasi parameter bervariasi sehubungan dengan pilihan variabel kontrol dan instrumen.

II.) Sebaliknya teknik Machine Learning juga dapat berguna untuk analitik data dalam Ilmu sosial.

A.) Pemilihan Parameter, Metode validasi model dalam ML dapat meningkatkan model ekonometrik tradisional

Para peneliti dalam pembelajaran mesin telah mengembangkan cara-cara untuk berurusan dengan dataset besar dan para ekonom yang tertarik untuk menangani data semacam itu akan disarankan untuk berinvestasi dalam mempelajari teknik-teknik ini. Misalnya, metode Penambangan Web dapat menemukan variabel penjelas baru yang dapat digunakan. Validasi silang harus mengidentifikasi efek non-linear atau efek silang yang terlupakan. Validasi Model harus mendeteksi ketika model salah ditentukan dan dengan demikian memungkinkan spesifikasi yang lebih baik dari model ekonometrik dan secara keseluruhan mengurangi bias dan kesalahan variabel yang dihilangkan. Sebagai contoh, literatur terbaru dalam fokus keuangan pada model Garch (model seri kali tradisional) meningkat dengan Neural Network untuk memprediksi volatilitas dan harga aset yang lebih baik.

Untuk wawasan lebih lanjut tentang kegunaan ML dalam ekonometrik, periksa makalah ini oleh Arthur Charpentier: https://arxiv.org/pdf/1708.06992.pdf

B.) Pemodelan Kausal mulai menjadi perhatian dan bidang penelitian di ML. Yang berarti bahwa dalam jangka panjang ML berpotensi mengatasi kekurangannya sendiri (seperti berfokus secara eksklusif pada kesesuaian) dan mengungguli Ekonometrika.

Beberapa ilmuwan komputer Teoritis, seperti Pearl (2009a, b) miliki membuat kontribusi signifikan untuk pemodelan kausal dalam ilmu komputer (dengan pembelajaran mesin ekstensi):

(lihat: Kesimpulan Kausal dalam Statistik: A Primer Wiley, 2016 Judea Pearl et Al)

Pearl mendefinisikan kontrafaktual secara langsung dalam hal "model persamaan struktural" - seperangkat persamaan, di mana setiap variabel diberi nilai yang merupakan fungsi eksplisit dari variabel lain dalam sistem. Diberikan model seperti itu, kalimat "Y akan menjadi y seandainya X menjadi x" (secara resmi, X = x & gt; Y = y) didefinisikan sebagai pernyataan: Jika kita mengganti persamaan yang saat ini menentukan X dengan konstanta X = x, dan menyelesaikan serangkaian persamaan untuk variabel Y, solusi yang diperoleh adalah Y = y. Definisi ini telah terbukti kompatibel dengan aksioma kemungkinan semantik dunia dan membentuk dasar untuk inferensial kausal dalam ilmu-ilmu alam dan sosial, karena setiap persamaan struktural dalam domain tersebut sesuai dengan mekanisme sebab-akibat yang lazim yang dapat dipertimbangkan secara bermakna oleh para peneliti .

Namun, tampaknya kemajuan teoretis ini belum dimasukkan ke dalam praktik pembelajaran mesin. Kecuali dalam beberapa makalah penelitian terbaru:

http://www.nasonline.org/programs/sackler-colloquia/documents/athey.pdf

Sebagai Kesimpulan, menurut pendapat saya dan sekarang, Econometrics sebagai input yang lebih berharga dalam ilmu sosial daripada apa yang bisa dipelajari dengan pembelajaran mesin Jadi masih memadai untuk menggunakan ekonometrik untuk melakukan analisis data, bukan teknik ML.


1

Pandangan saya bertepatan dengan pengantar pertanyaan Anda. Yaitu, a) Ekonometrika sebagian besar berkaitan dengan kausalitas b) Pembelajaran mesin sebagian besar berkaitan dengan kecocokan

Tetapi untuk bagian yang tersisa, pandangan kami pergi. Inilah alasannya:

a) IV (dan teknik quasi-eksperimental lainnya) bukan satu-satunya cara untuk menguji kausalitas. Alternatifnya adalah i) percobaan ii) estimasi struktural. Dalam kedua kasus Anda menerapkan mesin ekonometrik meskipun Anda sebagian besar akan menggunakan OLS sederhana dalam kasus pertama dan bayesian / GMM / hal-hal Kemungkinan Maksimum dalam yang kedua. Dibandingkan dengan eksperimen, mungkin kurang jelas bagaimana estimasi struktural membantu dan di sini saya sampai pada poin kedua;

b) Seperti dalam sains apa pun, ekonom membangun model matematika tentang bagaimana segala sesuatu bekerja. Masalahnya adalah, ada banyak model untuk banyak konteks. Bagaimana cara mendefinisikan, mana yang tepat dalam keadaan tertentu? Di sinilah para ahli ekonometrika membantu, karena ekonometrik membantu membedakan antara model yang bekerja dan yang tidak bekerja. Ada beberapa cara untuk menunjukkannya: dengan eksperimen semu (yang sekarang sangat populer), Anda menunjukkan bahwa tautan (mudah-mudahan kausal) ada atau tidak dan besarnya = $ \ beta_i $. Sekarang, bagaimana jika data Anda tidak sesuai dengan pendekatan dan melakukan percobaan tidak mungkin? Anda dapat menggunakan estimasi struktural. Anda berkata: "Hei! Mari kita asumsikan bahwa model XYZ - mis. Fungsi produksi Cobb-Douglas - berfungsi. Jika ini benar, apa yang akan menjadi parameter estimasi?" Jadi Anda mengambil data non-eksperimental Anda dan dengan paksa memasukkannya ke dalam model yang Anda miliki dan memperkirakan parameter. Bagaimana hal itu membantu membangun "kebenaran"? Anda melihat parameternya dan mencoba memahami seberapa masuk akalnya. Misalnya, jika Anda menyelidiki parameter produksi Cobb-Douglas ($ Y = AK ^ \ alpha L ^ {1- \ alpha} $ st $ \ alpha & lt; 1 $) berfungsi tetapi koefisien Anda untuk regresi log-log adalah $ \ beta = [13, 0.8, 1.5] $ (jumlahnya benar-benar fiktif) maka Anda memiliki alasan untuk menyimpulkan bahwa model tersebut tidak sesuai dengan konteks (mungkin industri) yang Anda pelajari karena Anda mendapat $ \ beta_2 = (1 - \ alpha) = 1,5 & gt; 0 $. Omong kosong, kan? Mungkin, karena Anda bisa menyalahkan data, fakta bahwa Anda mengamati hasil keseimbangan dan menghilangkan bias variabel. Tapi itu membuatmu berpikir di kedua arah: ada yang salah dengan teori itu? ada yang salah dengan model ekonometrik saya?

Orang-orang di Makro dan IO sering mengikuti pendekatan (alat mereka berbeda) karena seseorang memiliki kemampuan terbatas untuk bereksperimen di lapangan Kalau tidak, saat Anda melakukan ikuti resep literatur kuasi-eksperimental, Anda telah menyelidiki hanya sebagian kecil dari masalah, yang sangat penting untuk pemahaman kita tentang bagaimana ekonomi bekerja. Ini menurut saya poin utama dari Deaton kritik sehubungan dengan pendekatan kuasi-eksperimental untuk inferensi kausal. Ini mengubah para peneliti menjadi orang-orang, yang mencari masalah yang sesuai dengan alat dan peduli dengan konteksnya karena pengacakan dapat dipercaya tanpa menggali ke dalam bidang nyata. Mereka bisa menerbitkan studi tentang ekonomi tenaga kerja, membuat kesimpulan tentang ekonomi politik, menganalisis data olahraga dan mengevaluasi kebijakan pembangunan di negara-negara miskin semuanya pada saat yang sama dan tidak peduli dengan mekanisme yang mendasarinya. Kuasi-eksperimentalis tidak peduli tentang model ekonometrik selama pengacakan bekerja. Mungkin hubungan yang sebenarnya adalah linier, mungkin juga tidak. Tetapi ketika instrumen kuat dan Anda menggunakan kata-kata yang tepat di bagian strategi identifikasi, tidak masalah untuk publikasi? Ini mungkin tidak seburuk itu, tetapi Deaton khawatir bahwa pendekatan tersebut tidak banyak memberi tahu tentang model mana yang bekerja dan apa nilai-nilai dari mendasar parameter (Periksa tanggapan Imbens sekalipun. Keduanya adalah bacaan yang baik).

Mengapa demikian? parameter penting? Biarkan saya memberikan analogi dari fisika (di mana pengetahuan saya dibatasi oleh kelas sekolah menengah saya). Dalam fisika Anda mengukur hal-hal, membuat percobaan dan mendapatkan koefisien. Baik, sekarang kami ingin membuat prediksi tentang seberapa cepat batu itu jatuh di tempat baru. Pendekatan alami adalah dengan menggunakan estimasi parameter yang diperoleh sebelumnya untuk memprediksi seberapa cepat sebuah batu jatuh dari jarak tertentu dalam a baru lingkungan Hidup. Jika Anda tahu bagaimana lingkungan baru berbeda dari yang lain (ditentukan oleh model !) Anda dapat menggunakan koefisien yang Anda dapatkan, hubungkan dengan model dan dapatkan prediksi yang kredibel.

Dalam ilmu ekonomi, nilai-nilai yang Anda dapatkan dari eksperimen semu tidak akan membantu Anda melakukan hal yang sama. Pikirkan program pengembangan yang Bank Dunia mulai di Eropa Timur dan ingin mendaftar di Afrika Selatan. Asumsikan Anda memiliki kesimpulan yang kredibel dengan strategi RDD yang sangat mewah. Baik, Anda mendapatkan $ \ beta_i $ super-signifikan Anda. Jelas bahwa dampak program pembangunan di Eropa Timur tidak akan sama dengan di Afrika Selatan karena konteks (lingkungan) berbeda. Jadi menggunakan $ \ beta_i $ secara langsung tidak akan berfungsi. Tapi tidak bisakah kita menyesuaikan nilai dan membuat prediksi yang masuk akal? Yah, karena kita tidak tahu apa sebenarnya $ $ beta_i $ dan bagaimana dua model benar-benar berbeda, kita tidak tahu apa jenis transformasi ke $ \ beta $ yang perlu kita terapkan. Jadi kita tahu sesuatu untuk Eropa Timur tetapi tidak bisa menggunakan angka untuk tempat lain. Sayang sekali kan? Karena Anda melakukan pekerjaan dengan baik, tetapi tidak bisa menyamaratakan hasilnya. Ekonometrik struktural dapat secara eksplisit tentang apa koefisien - dalam hal model - artinya dan bagaimana menggunakan nilai ketika Anda mentransfernya ke lingkungan lain. Harga itu adalah asumsi yang lebih ketat pada hubungan antara variabel dan struktur yang Anda - sebagai pemodel - memaksakan pada istilah kesalahan.

c) Menurut pendapat saya, pembelajaran mesin adalah alat yang berharga untuk mengumpulkan data yang sebelumnya tidak tersedia dan menguji hal-hal, yang tidak dapat kami uji sebelumnya. Contoh yang baik adalah aliran kertas saat ini tentang protes dan ekonomi politik. Dengan internet Anda mendapatkan akses ke banyak informasi yang tidak terstruktur. Kemampuan untuk mengekstraknya menggunakan teknik pembelajaran mesin memungkinkan Anda, misalnya, untuk mengevaluasi sentimen pemilih dan bagaimana hal itu memengaruhi hasil politik di masa depan. Jadi dalam arti tertentu ML adalah alat yang baik untuk menghemat waktu Anda untuk membuat dataset untuk mempelajari masalah baru atau mengatasi bias variabel yang dihilangkan (karena sekarang Anda dapat mengukur hal-hal, yang tetap tidak diukur - dan tetap menjadi bagian dari istilah kesalahan - sebelumnya).


0

Jadi kamu benar. Sangat sulit untuk membuktikan kausalitas dalam ekonomi. Menggunakan variabel instrumental adalah cara yang baik untuk melakukannya. Saya pikir Anda mungkin sedikit bingung tentang perbedaan antara "pembelajaran mesin" dan Econometrics.

Pembelajaran mesin bekerja dalam 2 cara:

1) Anda memiliki kumpulan data besar dengan jawaban yang benar sudah dimasukkan. Anda membagi set data menjadi 2 menjadi set tes dan melatih, kemudian jalankan program untuk membuat fungsi untuk mengidentifikasi jawaban yang sudah benar diberikan berbagai variabel dalam set kereta. Anda kemudian dapat menggunakan set tes yang saat ini tidak terlihat untuk melihat seberapa akurat fungsi yang dimiliki komputer untuk melihat seberapa akuratnya. Contoh yang bagus untuk hal ini adalah komputer yang mencari tahu nomor yang ditarik tangan mana yang mewakili angka sebenarnya karena Anda dapat memberi makan dalam set data yang sudah ada sebelumnya.

2) Anda tidak memiliki data selain fungsi kebugaran (fungsi yang menentukan kebenaran). Anda membuat data Anda sendiri dengan meminta komputer secara acak mengatur fungsi yang mengubah data menjadi output dan kemudian memasukkan banyak fungsi acak ke dalam situasi. Setelah simulasi selesai maka Anda melihat fungsi mana yang melakukan yang terbaik dan memodifikasi semua fungsi menjadi lebih seperti itu. Lebih dari ribuan atau jutaan iterasi fungsi-fungsi perlahan "menyempurnakan" fungsi sehingga memberikan jawaban yang benar mengingat situasi yang berulang. Contoh yang baik dari hal ini adalah mobil yang bisa mengemudi sendiri. Beberapa peneliti benar-benar memuat komputer ke dalam pencurian mobil untuk memungkinkannya berlatih.

Kedua kasus memiliki aplikasi yang sangat terbatas pada bidang ekonomi. Dalam skenario pertama, Anda perlu memiliki kumpulan data tentang ribuan ekonomi selama ribuan tahun, semuanya dengan data yang berbeda. Kami memang memiliki banyak data ekonomi, tetapi ketika Anda memikirkannya, kami hanya memiliki 195 negara untuk melihat dan hanya ada 1 ekonomi global. Kami juga hanya memiliki sekitar 100 tahun data ekonomi yang baik. Terlebih lagi hubungan antar variabel tampaknya berubah. Kearifan konvensional yang dulunya adalah tingkat pengangguran yang rendah menyebabkan inflasi yang tampaknya tidak lagi menjadi masalah di ekonomi AS.

Dengan praktik pembelajaran mesin kedua, tidak ada cara untuk mensimulasikan seluruh ekonomi dunia secara cukup akurat untuk menguji bagaimana berbagai kebijakan akan berdampak pada ekonomi dunia karena kekuatan komputer yang tidak cukup kuat.

Ekonometrika menggunakan instrumen karena memungkinkan untuk eksperimen alami. Anda jelas tidak bisa hanya menjalankan eksperimen dalam ekonomi untuk melihat apa yang terjadi (mis: Apa yang akan terjadi jika kami menurunkan upah minimum menjadi 0 atau mengambil semua pajak) karena akan ada dampak nyata pada orang sehingga tidak etis. Alih-alih yang dilakukan para ekonom adalah mencari tempat-tempat di mana ada perbedaan sewenang-wenang antara dua ekonomi. Contoh yang baik adalah ketika satu negara menaikkan upah minimum dan negara lain tidak. Anda sekarang dapat membandingkan ekonomi antara kedua negara untuk melihat apakah dia menyatakan dengan upah minimum tinggi tiba-tiba mengalami inflasi sedangkan negara upah minimum rendah tidak. Ini akan menjadi variabel instrumental. Ini memungkinkan para ekonom untuk melihat eksperimen alami dan memperoleh hasil kausal dari ini.

Masalah dengan variabel instrumental adalah bahwa Anda tidak pernah dapat 100% yakin bahwa variabel instrumental tidak terkait dengan variabel dependen. Dalam contoh upah minimum, mungkin negara yang menaikkan upah minimum memiliki serikat pekerja yang kuat yang berdampak pada inflasi ketika efek yang sama tidak berlaku di negara pertama. Adalah tugas seorang ekonom untuk mencoba dan melakukan yang terbaik untuk menghilangkan bias-bias ini tetapi pada kenyataannya tidak mungkin untuk 100% akurat.

Jadi untuk menjawab pertanyaan Anda "Mengapa menggunakan ekonometrik alih-alih pembelajaran mesin" jawabannya adalah bahwa pembelajaran mesin tidak dapat digunakan sebagian besar aplikasi ekonomi. Ini adalah teknologi yang sangat besar tetapi bukan pancea dan masih bisa salah. Ada yang bagus video seri yang menjelaskan apa itu pembelajaran mesin dan cara kerjanya yang saya sarankan Anda tonton untuk memahami subjek lebih dalam.


0

Inilah jawaban dasar bagi siapa pun yang tidak tertarik untuk membaca jawaban panjang:

1) ML berfokus pada prediksi dan bukan pada kausalitas (seperti halnya metrik) 2) ML sangat kuat untuk pemilihan parameter dan validasi model 3) Banyak ML algs. sangat mirip dengan pendekatan metrik dasar. Misalnya, regresi ridge dan LASO keduanya hanyalah ekstensi kecil OLS.

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.