Saya mengajukan pertanyaan ini di situs stackexchange matematik dan direkomendasikan untuk bertanya di sini.
Saya sedang mengerjakan proyek hobi dan butuh bantuan dengan masalah berikut.
Sedikit konteks
Katakanlah ada koleksi item dengan deskripsi fitur dan harga. Bayangkan daftar mobil dan harga. Semua mobil memiliki daftar fitur, misalnya ukuran mesin, warna, tenaga kuda, model, tahun dll. Untuk setiap make, kira-kira seperti ini:
Ford:
V8, green, manual, 200hp, 2007, $200
V6, red, automatic, 140hp, 2010, $300
V6, blue, manual, 140hp, 2005, $100
...
Lebih jauh lagi, daftar mobil dengan harga diterbitkan dengan beberapa interval waktu yang berarti kita memiliki akses ke data harga historis. Mungkin tidak selalu termasuk mobil yang persis sama.
Masalah
Saya ingin memahami bagaimana memodelkan harga untuk setiap mobil berdasarkan informasi dasar ini, yang paling penting mobil tidak ada dalam daftar awal.
Ford, v6, red, automatic, 130hp, 2009
Untuk mobil di atas, hampir sama dengan yang ada di daftar, hanya sedikit berbeda dalam tenaga kuda dan tahun. Untuk harga ini, apa yang dibutuhkan?
Apa yang saya cari adalah sesuatu yang praktis dan sederhana, tetapi saya juga ingin mendengar tentang pendekatan yang lebih kompleks bagaimana membuat model seperti ini.
Apa yang saya coba
Inilah yang telah saya coba sejauh ini:
1) menggunakan data historis untuk mencari mobil X. Jika tidak ditemukan, tidak ada harga. Ini tentu saja sangat terbatas dan seseorang hanya dapat menggunakan ini dalam kombinasi dengan beberapa pembusukan waktu untuk mengubah harga mobil yang dikenal dari waktu ke waktu.
2) menggunakan skema pembobotan fitur mobil bersama-sama dengan mobil sampel yang diberi harga. Pada dasarnya ada harga dasar dan fitur hanya mengubah itu dengan beberapa faktor. Berdasarkan ini harga mobil apa pun diturunkan.
Yang pertama terbukti tidak cukup dan yang kedua terbukti tidak selalu benar dan saya mungkin tidak memiliki pendekatan terbaik untuk menggunakan bobot. Ini juga tampaknya agak berat untuk mempertahankan bobot, jadi itu sebabnya saya pikir mungkin ada beberapa cara untuk menggunakan data historis sebagai statistik dalam beberapa cara untuk mendapatkan bobot atau untuk mendapatkan sesuatu yang lain. Aku hanya tidak tahu harus mulai dari mana.
Aspek penting lainnya
- mengintegrasikan ke dalam beberapa proyek perangkat lunak yang saya miliki. Baik dengan menggunakan perpustakaan yang ada atau menulis algoritma sendiri.
- perhitungan ulang cepat ketika data historis baru masuk
Adakah saran bagaimana masalah seperti ini bisa didekati? Semua ide lebih dari diterima.
Terima kasih banyak sebelumnya dan berharap untuk membaca saran Anda!