Membangun model pembelajaran mesin untuk memprediksi hasil panen berdasarkan data lingkungan


10

Saya memiliki dataset yang berisi data tentang suhu, curah hujan, dan hasil kedelai untuk sebuah pertanian selama 10 tahun (2005 - 2014). Saya ingin memprediksi hasil untuk tahun 2015 berdasarkan data ini.

Harap dicatat bahwa dataset memiliki nilai SETIAP HARI untuk suhu dan curah hujan, tetapi hanya 1 nilai per tahun untuk hasil, karena panen tanaman terjadi pada akhir musim tanam.

Saya ingin membangun regresi atau model pembelajaran berbasis mesin lainnya untuk memprediksi hasil 2015, berdasarkan regresi / beberapa model lain yang diperoleh dengan mempelajari hubungan antara hasil dan suhu dan curah hujan di tahun-tahun sebelumnya.

Saya akrab dengan melakukan pembelajaran mesin menggunakan scikit-belajar. Namun, tidak yakin bagaimana merepresentasikan masalah ini. Bagian yang sulit di sini adalah bahwa suhu dan curah hujan setiap hari tetapi hasil hanya 1 nilai per tahun.

Bagaimana cara saya mendekati ini?


bahkan saya mencoba membuat model untuk memprediksi hasil panen. Bisakah Anda berbagi rincian tentang pendekatan yang Anda ikuti?
Nitz

Apakah Anda bisa mendapatkan jawaban yang lengkap? Jika tidak, tolong beri tahu saya dan saya akan dengan senang hati menulis jawaban terperinci tentang cara melakukannya mengingat saya bekerja di domain yang sama
89_Sederhana

@ Crop89, itu akan luar biasa! menantikan jawaban Anda
user308827

Sudahkah Anda menemukan jawabannya? Saya menghadapi masalah yang sama. Bisakah Anda membagikan detailnya jika sudah berhasil? terima kasih banyak
eric huang

Jawaban:


3

Sebagai permulaan, Anda dapat memprediksi hasil untuk tahun mendatang berdasarkan data harian untuk tahun sebelumnya. Anda dapat memperkirakan parameter model dengan mempertimbangkan nilai data setiap tahun sebagai satu "titik", lalu memvalidasi model menggunakan validasi silang. Anda dapat memperpanjang model ini dengan mempertimbangkan lebih dari satu tahun terakhir, tetapi lihat ke belakang terlalu jauh dan Anda akan kesulitan memvalidasi model dan pakaian Anda.


terima kasih @Emre, kebingungan saya adalah bagaimana saya memperlakukan data sepanjang tahun sebagai 1 poin? Bukankah setiap baris data (mewakili satu hari) merupakan sampel dalam scikit-learn nomenklatur? Bagaimana saya memperlakukan satu tahun penuh sebagai satu sampel, bukan 365?
user308827

1
Saya tidak membahas spesifikasi sklearn, tetapi karena Anda bertanya, Anda ingin menggunakan sklearn.cross_validationmetode dengan "Label" pada namanya, seperti sklearn.cross_validation.LabelKFold .
Emre

terima kasih @ Emre, jadi idenya adalah untuk menetapkan label tunggal setiap tahun, kan?
user308827

Ya, @ user308827.
Emre

terima kasih lagi @Emre, silakan lihat pertanyaan tindak lanjut: datasetcience.stackexchange.com/questions/9612/…
user308827


1

Anda memiliki 10 titik data dengan setiap titik data memiliki dimensi 365 (suhu untuk setiap hari) + 365 (presipitasi untuk setiap hari). Idealnya, saya pertama-tama akan mengurangi dimensi melalui metode pembelajaran mesin, misalnya PCA. Kemudian gunakan metode pembelajaran mesin untuk membangun model prediksi. Namun, karena dataset kecil, saya tidak berpikir teknik pembelajaran mesin sesuai dengan masalah Anda.

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.