Saya mencari beberapa statistik (dan probabilitas, saya kira) pertanyaan wawancara, dari yang paling dasar sampai yang lebih maju. Jawaban tidak perlu (meskipun tautan ke pertanyaan spesifik di situs ini akan berhasil).
Saya mencari beberapa statistik (dan probabilitas, saya kira) pertanyaan wawancara, dari yang paling dasar sampai yang lebih maju. Jawaban tidak perlu (meskipun tautan ke pertanyaan spesifik di situs ini akan berhasil).
Jawaban:
Tidak yakin apa pekerjaannya, tapi saya pikir "Jelaskan x kepada seorang pemula" mungkin akan menjadi baik-
a) karena mereka mungkin perlu melakukan ini dalam pekerjaan
b) kurasa itu ujian yang bagus untuk memahami.
Standar Q tempat saya bekerja adalah di sepanjang garis:
Lihat output regresi logistik berganda ini dari paket statistik yang Anda klaim telah digunakan (lebih disukai yang kami gunakan juga). XXX adalah variabel independen minat pokok. Bagaimana Anda menafsirkan hasil untuk kolega dengan pengetahuan tentang materi pelajaran tetapi tidak ada pelatihan statistik formal? (Jika perlu meminta interpretasi terpisah estimasi titik, CI, nilai-p).
Anda mungkin juga ingin merenungkan apakah wawancara merupakan media terbaik untuk mengukur konstruk minat. Jika Anda ingin mengukur pengetahuan sebelumnya tentang probabilitas atau statistik, lebih baik Anda lebih mengandalkan tes tertulis. Anda dapat mengajukan lebih banyak pertanyaan, dan dengan demikian meningkatkan keandalan pengukuran. Ini lebih terstandarisasi baik dalam administrasi, dan dalam penilaian. Dan begitu instrumen dikembangkan, mungkin menggunakan lebih sedikit sumber daya untuk mengelola.
Anda kemudian dapat menggunakan wawancara sebagai alat yang lebih fokus melihat faktor-faktor seperti keterampilan verbal dan interpersonal.
Dua pertanyaan yang pernah saya tanyakan:
1) Anda cocok dengan regresi berganda untuk menguji pengaruh variabel tertentu yang diminati oleh pekerja di departemen lain. Variabel tersebut kembali tidak signifikan, tetapi rekan kerja Anda mengatakan bahwa ini tidak mungkin karena diketahui memiliki pengaruh. Apa yang akan Anda katakan / lakukan?
2) Anda memiliki 1000 variabel dan 100 pengamatan. Anda ingin menemukan variabel signifikan untuk respons tertentu. Apa yang akan kamu lakukan?
Ini adalah kumpulan data besar. Apa rencana Anda untuk berurusan dengan pencilan? Bagaimana dengan nilai yang hilang? Bagaimana dengan transformasi?
Bisakah mereka berurusan dengan data dunia nyata?
Banyak pertanyaan / jawaban di situs ini dapat memberikan ide untuk pertanyaan yang bagus. Saya akan memberikan daftar dengan beberapa tautan yang menurut saya bagus. Posting yang saya jawab terlalu terwakili, karena saya tahu posting itu lebih baik, bukan karena mereka yang terbaik! Saya memberikan komentar singkat untuk setiap tautan, sehingga Anda dapat memutuskan apakah Anda ingin mengikuti tautan tersebut.
Apa intuisi di balik SVD? "Bisakah Anda menjelaskan kepada salah satu klien kami bagaimana SVD bekerja?"
Estimasi Kemungkinan Maksimum (MLE) dalam istilah awam "Bisakah Anda menjelaskan dalam bahasa nonteknis gagasan estimasi kemungkinan maksimum?"
Taleb dan Black Swan "Katakan padaku, apa itu angsa hitam, dan mengapa itu relevan? Kapan itu relevan?"
Inferensi statistik ketika sampel "adalah" populasi "Apa yang dapat Anda katakan tentang inferensi statistik ketika sampel adalah seluruh populasi?"
Goodness of fit dan model mana untuk memilih regresi linier atau Poisson "Kami memiliki masalah regresi di mana responsnya adalah variabel jumlah. Mana yang akan Anda pilih dalam konteks ini, kuadrat terkecil atau regresi Poisson (atau mungkin beberapa lainnya)? Jelaskan pilihan Anda , apa perbedaan utama antara model ini? "
Apa perbedaan antara varian terbatas dan tak terbatas "Bisakah Anda menjelaskan, dalam bahasa sesederhana mungkin, apa artinya variabel acak memiliki ekspektasi tak terbatas atau varian tak terbatas? Apa kepentingan praktis perbedaan ini? Jelaskan dengan contoh."
Apa yang modern, alternatif yang mudah digunakan untuk regresi bertahap? "Bagaimana Anda membangun model regresi yang kompleks ketika ada banyak variabel prediktor yang mungkin? Jelaskan berbagai strategi yang mungkin, dan ceritakan tentang masalah dengan masing-masingnya"
Bagaimana cara mengatasi pemisahan yang sempurna dalam regresi logistik? "Apa masalah pemisahan dalam regresi logistik, penyebabnya, gejalanya? Apa yang dapat Anda lakukan untuk menyelesaikannya, jika itu benar-benar masalah?"
Mengapa matriks korelasi perlu semi-pasti positif dan apa artinya menjadi semi-pasti positif atau tidak? dan
apa yang dikatakan oleh matriks kovariansi non positif yang pasti tentang data saya? "Jelaskan mengapa matriks kovarians harus positif (semi) pasti, dan apa artinya itu. Bagaimana fakta itu bisa digunakan?"
Apa versi median multidimensi "Bisakah Anda mengusulkan beberapa cara untuk menggeneralisasi median ke data multivarian?"
Menafsirkan istilah interaksi dalam regresi logit dengan variabel kategori dan Apa praktik terbaik dalam mengidentifikasi efek interaksi? dan Dua efek utama negatif namun efek interaksi positif? dan Termasuk interaksi tetapi bukan efek utama dalam suatu model dan Bagaimana menafsirkan efek utama ketika efek interaksi tidak signifikan? "Jelaskan apa yang dimaksud dengan interaksi dalam model regresi. Secara khusus, apa artinya jika interaksi itu signifikan sedangkan efek utama tidak? Apakah ada beberapa perbedaan dalam interpretasi interaksi antara regresi linier biasa dan regresi logistik?"
Apa yang bisa menjadi alasan untuk menggunakan transformasi akar kuadrat pada data? dan Transformasi data yang tepat "Kapan, bagaimana dan mengapa Anda mengubah variabel respons dalam model regresi (atau ANOVA)? Apakah ada alternatif?
Bisakah saya mempercayai hasil ANOVA untuk DV yang tidak terdistribusi normal? "Bagaimana Anda akan memperlakukan ANOVA dengan residu yang tidak normal?
Mengapa statistik berguna ketika banyak hal yang penting adalah satu kesempatan?
Bagaimana saya bisa memodelkan jumlah variabel acak Bernoulli secara efisien?
Kapan harus menggunakan persamaan estimasi umum vs model efek campuran?
Apa yang terjadi di sini, ketika saya menggunakan kuadrat kerugian dalam pengaturan regresi logistik? "Mengapa kita menggunakan kemungkinan maksimal untuk regresi logistik? Mengapa tidak kuadrat?"
Saya pernah ditanya bagaimana saya akan menjelaskan relevansi teorema batas pusat dengan kelas mahasiswa baru dalam ilmu sosial yang nyaris tidak memiliki pengetahuan tentang statistik.
Bagaimana Anda menghitung sesuatu yang bukan angka?
Contoh, "Ekstraksi Fitur Otomatis untuk Mengklasifikasikan Data Audio"
Dasar Pemikiran: Bisakah mereka mencari cara untuk menganalisis sesuatu secara statistik yang belum ada dalam tabel besar?
Bagaimana Anda mencegah pemasangan berlebihan ketika Anda membuat model statistik?
Jawaban yang bagus: validasi silang
Saya sering bertanya "bagaimana Anda mendefinisikan / menjelaskan apa perkiraan itu?"
Jawaban untuk jenis pertanyaan yang sangat umum membantu saya untuk melihat apakah orang terhubung dengan kasus perkiraan tertentu. Tidak ada jawaban yang benar tetapi menjawab ini secara sintetis selama wawancara tidak selalu mudah :)
Untuk konteks data pengamatan:
Pertimbangkan model regresi ini diterapkan untuk masalah substantif ini. Apa, jika ada, di dalamnya dapat diartikan secara kausal? [Pemeriksaan lebih lanjut] Apa yang perlu Anda pelajari untuk mengubah pendapat Anda?
Bagaimana Anda menghitung jumlah pohon kayu cendana di Bangalore?
Di bawah judul Penyebab vs korelasi :
Adalah umum untuk menggunakan keterlibatan pelanggan / pengguna sebagai fitur untuk model prediksi. Misalnya, orang yang mengklik tombol ini lebih cenderung berlangganan daripada orang yang tidak. Orang-orang yang berbelanja pada hari Senin lebih mungkin untuk berbelanja lagi daripada mereka yang berbelanja pada hari Selasa.
Jika kami menganggap ini ekstrem: Pengguna yang mengeklik "pembelian" lebih cenderung membeli produk daripada pengguna yang tidak mengeklik pembelian.
Tetapi jelas itu tidak terlalu membantu dalam menjelaskan mengapa beberapa pengguna berlangganan dan beberapa tidak.
Bagaimana Anda menyeimbangkan menggunakan fitur pelanggan yang menjelaskan mengapa mereka berlangganan vs yang sangat berkorelasi dengan berlangganan, tetapi perlu untuk menyelesaikan tugas?
Ini adalah set TinkerToy . Tunjukkan pada saya bagaimana jarak Euclidean bekerja dalam tiga dimensi. Sekarang tunjukkan kepada saya bagaimana regresi berganda bekerja.
Bisakah mereka menjelaskan bagaimana statistik bekerja di dunia fisik?
Kami menjalankan pusat layanan pelanggan. Kami mendapat 1 juta panggilan per bulan. Bagaimana kita menguranginya menjadi sepuluh ribu?
Banyak pertanyaan yang kami ajukan mirip dengan yang telah dijelaskan. Tetapi beberapa yang belum saya baca, yang digunakan: Anda mungkin diminta untuk membuat sketsa program di papan tulis untuk melakukan sesuatu seperti: mensimulasikan dadu bergulir atau masalah probabilitas lainnya, atau menghitung serangkaian bilangan prima (misalnya semua bilangan prima yang kurang dari 1.000.000) - Anda akan dapat melakukan ini dalam bahasa apa pun yang Anda inginkan, tetapi sebagian besar orang memilih R, dan beberapa memilih Python (saya percaya), tetapi saya kira Anda dapat memilih Stata, SAS, SPSS , Matlab, dll. Anda mungkin akan ditanyai pertanyaan untuk menyelidiki kedalaman pengetahuan Anda tentang bahasa pemrograman pilihan Anda - mengapa menggunakan terapkan alih-alih untuk loop dalam R, misalnya.
Anda juga mungkin diminta untuk merancang eksperimen atau penelitian lain untuk menyelidiki sesuatu - biasanya sesuatu yang praktis - kadang-kadang ini terkait dengan pekerjaan yang kita lakukan, tetapi seringkali tidak. (Anda seharusnya tidak memiliki pengetahuan tentang pekerjaan yang kami lakukan, tetapi Anda harus dapat memahami inti masalah yang belum Anda dengar dan berspekulasi dengan cerdas, bahkan jika diberi pengetahuan domain tertentu, Anda akan tahu itu salah - tidak apa-apa, Anda tidak diharapkan memiliki pengetahuan domain). Anda mungkin diminta untuk mempertimbangkan hal-hal seperti kekuasaan.
Saat melakukan analisis varians variabel kuantitatif, kadang-kadang ditemukan bahwa frekuensi variabel sangat tinggi (> 5) maka kami menggunakan uji eksak Fisher untuk menemukan independensi variabel.
Kehadiran rata-rata yang dibayarkan di Yankees games tahun lalu adalah 55.000. Anda secara acak bertanya kepada sekelompok orang di NYC apakah mereka pergi ke pertandingan Yankees musim lalu, dan jika mereka melakukannya, Anda mencatat kehadiran yang dibayar. Berapa rata-rata pengunjung yang hadir untuk permainan yang dihadiri orang-orang yang Anda temui yang menghadiri pertandingan?
Saya akan memberi Anda petunjuk untuk jawaban saya (petunjuk tidak disediakan): pengambilan sampel dengan panjang bias. Saya mencetak home run dalam hal itu, tetapi itu tidak cukup untuk memenangkan pertandingan, ha ha. Catatan: Saya menyebutkan banyak peringatan yang berkaitan dengan bagaimana pengambilan sampel dilakukan, dan pewawancara mengatakan kepada saya untuk mengabaikan semuanya.