Apakah Anda memiliki visi global tentang teknik analisis tersebut?


24

Saat ini saya sedang mengerjakan proyek yang pada dasarnya saya butuhkan, seperti yang kita semua lakukan, untuk memahami bagaimana output terkait dengan input . Kekhasan di sini adalah bahwa data diberikan kepada saya satu per satu, jadi saya ingin memperbarui analisis saya setiap kali saya menerima yang baru . Saya percaya ini disebut pemrosesan "on-line", sebagai lawan dari pemrosesan "batch", di mana Anda memiliki semua data yang diperlukan dan melakukan perhitungan Anda menggunakan semua data pada saat yang sama.x ( y , x ) ( y , x )yx(y,x)(y,x)

Jadi saya mencari-cari ide, dan akhirnya saya menyimpulkan bahwa dunia terbagi menjadi tiga:

  • Bagian pertama adalah tanah statistik dan ekonometrika. Orang di sana melakukan OLS, GLS, variabel instrumen, ARIMA, tes, perbedaan perbedaan, PCA dan yang lainnya. Tanah ini sebagian besar didominasi oleh linearitas dan hanya memproses "batch".

  • Bagian kedua adalah pulau pembelajaran mesin dan kata-kata lain seperti kecerdasan buatan, pembelajaran yang diawasi dan tidak diawasi, jaringan saraf dan SVM. Pemrosesan "batch" dan "on-line" dilakukan di sini.

  • Bagian ketiga adalah seluruh benua yang baru saja saya temukan, sebagian besar dihuni oleh insinyur listrik, jadi sepertinya. Di sana, orang sering menambahkan kata "filter" ke alat mereka, dan mereka menemukan barang-barang hebat seperti algoritma Widrow-Hoff, kuadrat terkecil rekursif , filter Wiener , filter Kalman , dan mungkin hal-hal lain yang belum saya temukan. Tampaknya mereka melakukan sebagian besar pemrosesan "on-line" karena lebih sesuai dengan kebutuhan mereka.

Jadi pertanyaan saya adalah, apakah Anda memiliki visi global tentang semua ini? Saya mendapat kesan bahwa ketiga bagian dunia ini tidak terlalu banyak bicara satu sama lain. Apakah aku salah? Apakah ada Teori Kesatuan Memahami yang Besar Bagaimana Berkaitan dengan ? Apakah Anda tahu sumber daya di mana dasar teori itu mungkin diletakkan?XYX

Saya tidak yakin apakah pertanyaan ini benar-benar masuk akal, tetapi saya agak bingung antara semua teori itu. Saya membayangkan jawaban untuk pertanyaan "haruskah saya menggunakan ini atau itu?" akan "itu tergantung pada apa yang ingin Anda lakukan (dan pada data Anda)". Namun saya merasa ketiga dunia tersebut mencoba menjawab pertanyaan yang sama ( ?) Dan karenanya mungkin untuk memiliki pandangan yang lebih tinggi tentang semua ini, dan sangat memahami apa yang membuat masing-masing teknik menjadi istimewa.y=f(x)


Saya pikir 2 area pertama berbicara satu sama lain lebih banyak hari ini. Pertanyaan yang bagus!
Zach

Topik dinamis dan pertanyaan yang ditulis dengan baik!
rolando2

1
Tolong buat CW ini.
kardinal

1
Saya akan menyebut diri saya seorang ahli statistik, tetapi saya melakukan banyak hal on-line, melakukan beberapa pemodelan nonlinear dari berbagai jenis, dan telah mencoba-coba setidaknya dalam sedikit AI. Saya pikir perbedaan dalam alat-alat khas lebih berkaitan dengan jenis masalah yang cenderung dihadapi orang. Ketika masalah mereka bertemu, cepat atau lambat mereka cenderung menemukan atau menemukan kembali alat yang sama (seringkali dengan nama yang berbeda dan dengan bel dan peluit yang sedikit berbeda).
Glen_b -Reinstate Monica

Jawaban:


4

Dalam hal batch versus on-line, pengalaman saya mengatakan bahwa kadang-kadang Anda menggabungkan keduanya. Yang saya maksudkan adalah Anda membiarkan pekerjaan berat, yaitu menghitung hal-hal intensif yang berkaitan dengan formulasi model dilakukan secara off-line dan kemudian menggunakan prosedur cepat / adaptif untuk menggunakan model ini. Kami telah menemukan bahwa "data baru" dapat digunakan dalam tiga cara; 1. untuk hanya memperkirakan; 2. untuk merevisi parameter dari model yang diketahui dan 3. untuk merevisi parameter dan mungkin merevisi model. Tiga pendekatan ini telah digunakan untuk "analisis langsung" dan tentu saja waktu untuk menyelesaikan salah satu dari tiga langkah ini tergantung pada perangkat lunak yang digunakan dan perangkat keras yang tersedia.

Sekarang ke poin Anda yang lain tentang cara memodelkan y vs x. Saya lebih suka menggunakan versi regresi yang diperluas (disebut Fungsi Transfer atau Model ARMAX) sebagai dasar untuk menarik keluar dampak sejarah y dan nilai saat ini dan pas x. Sangat penting bahwa seseorang memvalidasi persyaratan Gaussian dan untuk menggabungkan sebagai proxy yang diperlukan untuk kedua struktur deterministik dihilangkan (melalui Deteksi Outlier) dan struktur stokastik dihilangkan melalui komponen ARMA. Selain itu kita perlu memastikan bahwa kita tidak menggunakan terlalu banyak data (tes untuk parameter konstan) dan bahwa setiap varian kesalahan tidak konstan yang dihasilkan dari varians kesalahan deterministik / stokastik dan / atau keterkaitan antara nilai y yang diharapkan dan varians dari residu.

Sekarang secara historis (atau secara histeris jika Anda mau) berbagai silo pemikiran telah berusaha merumuskan pendekatan. Banyak model ad-hoc yang digunakan oleh nenek moyang kita tebu ditampilkan sebagai himpunan bagian dari Fungsi Transfer tetapi ada set data yang dapat dibayangkan yang akan menantang asumsi Fungsi Transfer. Meskipun kumpulan data ini mungkin ada, tidak boleh diasumsikan bahwa mereka akan secara langsung mempengaruhi Anda kecuali analisis menghasilkan kesimpulan itu.

Teks seperti Wei (Addison-Wessley) atau Box-Jenkins harus memberikan peta jalan yang masuk akal untuk mendukung commnents saya dan untuk mengarahkan Anda ke beberapa "jawaban" lainnya

Ngomong-ngomong, ini adalah Pertanyaan Hebat!

Selain itu jika Anda memiliki data apa pun yang ingin Anda gunakan, saya dapat menunjukkan berbagai opsi yang diuraikan di sini. Silakan kirim data Anda ke web agar semua orang dapat melihat dan menggunakannya dalam upaya mereka untuk menghubungkan "y to x".


Terima kasih atas jawaban anda! Saya akan melihat lebih dalam tentang itu begitu saya punya waktu dan mungkin saya akan kembali kepada Anda. Saya harus mengatakan saya tidak tahu model ARMAX. Saya kira saya akan langsung ke VAR semua-endogen. Adapun data, sebenarnya kami masih membangun barang-barang lain untuk proyek kami jadi saya tidak punya banyak data yang relevan saat ini. Tetapi terima kasih banyak, Anda harus mendengar dari saya lagi!
Arthur

"validasikan persyaratan Gaussian": bukankah pemodelan Gaussian / nonparametric / forget-speed (langkah Breiman) jauh berbeda?
denis

2

Breiman mengatasi masalah ini dalam " Pemodelan Statistik: Dua Budaya ". Respons pertama terhadap pertanyaan yang sangat bagus.


Terima kasih! Tautan Anda tidak berfungsi untuk saya, yang ini berfungsi dan yang ini mengarah langsung ke pdf. Saya hanya membaca abstrak dan beberapa bagian secara acak dalam teks dan itu terlihat sangat menarik. Orang-orang tampaknya benar-benar "statistik anti klasik", meskipun. Terima kasih lagi.
Arthur

Hebat - Saya memperbarui tautannya. Ini menyenangkan dibaca - nikmatilah!
Ram Ahluwalia

"Dua budaya" Breiman telah dibahas di sini : beberapa poin menarik, tetapi sulit untuk mengubah atau bahkan menjelaskan pola pikir seseorang.
denis

1

Saya menduga jawaban untuk pertanyaan ini adalah sesuatu di sepanjang baris "tidak ada makan siang gratis." Mungkin alasan ahli statistik, ilmuwan komputer, dan insinyur kelistrikan telah mengembangkan algoritma yang berbeda adalah karena mereka tertarik untuk menyelesaikan berbagai jenis masalah.


0

Saya akan mengatakan bahwa ketiga kelompok yang Anda sebutkan ini memang hanya dua kelompok:

  • Statistik
  • Pembelajaran mesin, kecerdasan buatan dan pengenalan pola.

Semua cabang yang terkait dengan penyaringan sinyal didasarkan pada dua aspek: ekstraksi fitur (wavelet, Gabor dan Fourier) yang termasuk dalam pengenalan pola dan Transformasi Fourier Diskrit yang termasuk dalam matematika keras. Faktanya, penyaringan digital lebih dekat dengan sisi teknik karena mencoba menyelesaikan masalah pengenalan pola ini dengan menggunakan algoritma biaya komputasi yang sederhana dan rendah. Tetapi pada dasarnya, ini adalah pembelajaran mesin.

Selain itu, Pemfilteran, Wavelet, Gabor, dan Fourier banyak digunakan dalam pemrosesan gambar sebagai inti dari penglihatan buatan.

Perbedaan ada antara statistik dan pembelajaran mesin.

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.