Pertanyaan wawancara ilmuwan data: Regresi linier rendah


10

Saya menghadapi pertanyaan wawancara untuk pekerjaan di mana pewawancara bertanya kepada saya kira sangat rendah (antara 5 hingga 10%) untuk model elastisitas harga. Bagaimana Anda memecahkan pertanyaan ini?R2

Saya tidak bisa memikirkan hal lain selain fakta bahwa saya akan melakukan diagnosa regresi untuk melihat apa yang salah atau jika ada metode non linear yang harus diterapkan. Entah bagaimana saya pikir pewawancara tidak puas dengan jawaban saya. Apakah ada hal lain yang dilakukan dalam skenario seperti itu agar sesuai dengan model dan menggunakannya untuk prediksi tingkat produksi meskipun memiliki rendah ?R2

Sunting : Pada tahap selanjutnya mereka memberi saya data untuk memodelkan masalah selama wawancara dan saya mencoba menambahkan variabel tertinggal, dampak harga pesaing, Dummiesis musiman untuk melihat apakah ada bedanya. pergi ke 17,6 persen dan kinerjanya pada sampel ketidaksepakatan buruk. Secara pribadi saya pikir itu tidak etis untuk menempatkan model seperti itu untuk prediksi di lingkungan hidup karena akan memberikan hasil yang salah dan mengakibatkan kerugian klien (bayangkan menggunakan rekomendasi harga dari model seperti itu pada pendapatan perusahaan Anda!). Apakah ada hal lain yang dilakukan dalam skenario seperti itu yang terlalu jelas sehingga semua orang perlu tahu? Sesuatu yang tidak saya sadari, yang saya tergoda untuk mengatakan 'peluru perak'?R2

Juga, mari kita bayangkan setelah menambahkan variabel eksogen meningkat lebih jauh 2% lalu apa yang bisa dilakukan dalam skenario ini? Haruskah kita membuang proyek pemodelan atau masih ada harapan untuk mengembangkan model kualitas tingkat produksi yang ditunjukkan oleh kinerja pada sampel penahan?R2

Sunting2 : Saya telah memposting pertanyaan ini di forum economics.stackexchange.com untuk memahami masalah ini dari perspektif ekonomi


12
R2R2

1
Saya memberinya tag untuk belajar mandiri @Glen_b, beri tahu saya jika saya perlu menambahkan lebih detail. Terima kasih!
Penggemar

2
Terima kasih, itu hal yang baik untuk dilakukan. Tetapi lebih detail akan mencakup pertanyaan aktual yang perlu Anda pecahkan. "Misalkan X" menghadirkan situasi yang tidak meminta Anda untuk menyelesaikan apa pun.
Glen_b -Reinstate Monica

1
Diposting silang di economics.stackexchange.com/q/16617 . Cobalah untuk memutuskan situs terbaik untuk sebuah pertanyaan: jika Anda merasa perlu menyesuaikan varian ke situs yang berbeda, tetap tautkan mereka.
Scortchi

1
@ Scortchi, saya telah menambahkan tautan sebagai edit tambahan di kedua forum. Terima kasih!
Penggemar

Jawaban:


11

Bagaimana jika kita melihat masalah dari perspektif ini. Elastisitas harga adalah hubungan antara permintaan dan harga suatu produk.

Ketika r-square dalam situasi ini rendah, maka kita mungkin bisa menyiratkan bahwa hubungan antara harga dan permintaan untuk produk tertentu itu tidak kuat.

Dari sudut pandang penetapan harga, ini bisa berarti Anda telah menemukan produk yang dapat Anda hargai secara sewenang-wenang tanpa dampak besar pada permintaan ATAU bahwa permintaan cukup tidak menentu meskipun harga berbeda.

Jika Anda melihat barang Veblen , itu adalah contoh di mana elastisitas terbalik. Seiring kenaikan harga, permintaan meningkat.

Jika di sisi lain, r-square rendah, itu bisa berarti kategori produk yang harganya relatif tidak penting ketika datang ke permintaan. Dari atas kepala saya, obat kanker bisa menjadi sesuatu yang bisa melekat pada properti ini. Di mana pentingnya obat melebihi harga yang ia perintahkan dan tidak bisa menunjukkan perubahan dalam permintaan.

Dan sebagai kesimpulan, saya berasumsi maksud pewawancara mungkin untuk menilai jika Anda tahu apa implikasi dari r-square rendah artinya daripada mencari tahu bagaimana membangun model yang lebih baik dengan r-square yang lebih tinggi.


+1 untuk kesimpulannya. Saya juga berpikir tujuan pertanyaan ini adalah mencoba melihat apakah kandidat secara buta mengejar metrik tanpa sepenuhnya memahaminya.
Haitao Du

5

Saya tidak yakin apa yang diinginkan pewawancara tetapi ketika berhadapan dengan model yang berkinerja buruk ini adalah hal-hal yang saya pertimbangkan dan jawaban yang saya ingin dengar sebagai pewawancara (telah mewawancarai beberapa tahun sekarang).

  1. Mendapatkan lebih banyak data : Ini mungkin tidak selalu membantu tetapi ada beberapa hal yang dapat membantu Anda mengevaluasi efek solusi ini:

    • Jalankan model dengan ukuran sampel yang berbeda - jika hasilnya meningkat dengan lebih banyak data maka masuk akal dengan asumsi mendapatkan lebih banyak data akan terus meningkatkan kinerja model.
    • Fitur dengan sampel rasio - setelah Anda memilih fitur coba pahami jika Anda memiliki cukup sampel per setiap nilai fitur. Lihat pertanyaan yang dijawab tentang hal ini .
    • Nilai target yang hilang - elastisitas mungkin tidak berlaku sama di antara rentang harga yang berbeda. Dalam situasi di mana sampel data Anda bias ke kisaran tertentu, ada peluang bagus bahwa Anda tidak akan dapat menggeneralisasi (misalnya 90% sampel untuk harga antara 0-10 dan 10% lainnya untuk harga antara 1000-10000). Ada beberapa cara untuk mengatasi masalah ini selain mendapatkan lebih banyak data (pisahkan pelatihan model, jangan gunakan regresi).
  2. Rekayasa fitur yang lebih baik : Jika Anda memiliki cukup data dan Anda tahu tentang deep-learning maka mungkin yang ini tidak relevan. Jika Anda tidak memenuhi kriteria yang disebutkan, fokuskan upaya Anda pada kriteria ini. Dalam model perilaku-pengguna, ada banyak hubungan bahwa intuisi manusia lebih memahami daripada model yang dilatih mesin.
    Seperti dalam kasus Anda di mana Anda merekayasa beberapa fitur lebih banyak dan meningkatkan kinerja model dengan sangat baik. Langkah ini rentan terhadap kesalahan karena biasanya melibatkan kode berbasis logika (If Elses / rumus matematika).

  3. Pemilihan model yang lebih baik : Seperti yang Anda sarankan, mungkin model non-linear akan bekerja lebih baik. Apakah data Anda homogen? Apakah Anda memiliki alasan untuk meyakini bahwa fitur lintas akan menjelaskan elastisitas harga dengan lebih baik? (musiman * harga pesaing).

  4. Penyetelan parameter hiper: parameter hiper model penelusuran grid (+ hasil validasi silang) adalah praktik yang baik, tetapi sejauh pengalaman saya, jarang terjadi peningkatan kinerja secara signifikan (tentunya tidak dari 5% hingga 90%).

Ada banyak hal yang bisa dilakukan, tetapi poin-poin ini cukup umum.


1

Di atas apa yang disarankan oleh @ Fanat dan @ Fan, saya ingin menambahkan bahwa beberapa inspeksi visual mungkin membantu.

R2


Terima kasih telah berbagi input khusus domain karena ini memang masalah manajemen pendapatan
Penggemar
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.