Katakanlah kita memperkirakan penjualan toko dan data pelatihan saya memiliki dua set fitur:
- Satu tentang penjualan toko dengan tanggal (bidang "Toko" tidak unik)
- Satu tentang jenis toko (bidang "Toko" unik di sini)
Jadi matriksnya akan terlihat seperti ini:
+-------+-----------+------------+---------+-----------+------+-------+--------------+
| Store | DayOfWeek | Date | Sales | Customers | Open | Promo | StateHoliday |
+-------+-----------+------------+---------+-----------+------+-------+--------------+
| 1 | 5 | 2015-07-31 | 5263.0 | 555.0 | 1 | 1 | 0 |
| 2 | 5 | 2015-07-31 | 6064.0 | 625.0 | 1 | 1 | 0 |
| 3 | 5 | 2015-07-31 | 8314.0 | 821.0 | 1 | 1 | 0 |
| 4 | 5 | 2015-07-31 | 13995.0 | 1498.0 | 1 | 1 | 0 |
| 5 | 5 | 2015-07-31 | 4822.0 | 559.0 | 1 | 1 | 0 |
| 6 | 5 | 2015-07-31 | 5651.0 | 589.0 | 1 | 1 | 0 |
| 7 | 5 | 2015-07-31 | 15344.0 | 1414.0 | 1 | 1 | 0 |
| 8 | 5 | 2015-07-31 | 8492.0 | 833.0 | 1 | 1 | 0 |
| 9 | 5 | 2015-07-31 | 8565.0 | 687.0 | 1 | 1 | 0 |
| 10 | 5 | 2015-07-31 | 7185.0 | 681.0 | 1 | 1 | 0 |
+-------+-----------+------------+---------+-----------+------+-------+--------------+
[986159 rows x 4 columns]
dan
+-------+-----------+------------+---------------------+
| Store | StoreType | Assortment | CompetitionDistance |
+-------+-----------+------------+---------------------+
| 1 | c | a | 1270 |
| 2 | a | a | 570 |
| 3 | a | a | 14130 |
| 4 | c | c | 620 |
| 5 | a | a | 29910 |
| 6 | a | a | 310 |
| 7 | a | c | 24000 |
| 8 | a | a | 7520 |
| 9 | a | c | 2030 |
| 10 | a | a | 3160 |
+-------+-----------+------------+---------------------+
[1115 rows x 4 columns]
Matriks kedua menggambarkan jenis toko, kelompok bermacam-macam barang yang masing-masing dijual dan jarak dari toko pesaing terdekat.
Tetapi dalam data pengujian saya, saya hanya memiliki informasi dalam matriks pertama tanpa Customers
dan Sales
bidang. Tujuannya adalah untuk memprediksi bidang penjualan yang diberikan
- Toko
- Hari dalam seminggu
- Tanggal
- Buka (apakah toko terbuka)
- Promo (apakah toko sedang promosi)
- StateHoliday (apakah itu hari libur negara)
Saya dapat dengan mudah melatih classifier berdasarkan bidang berpoin di atas untuk memprediksi Sales
tetapi bagaimana saya bisa menggunakan matriks kedua dalam data pelatihan saya yang tidak akan saya dapatkan dalam data uji?
Apakah logis untuk berasumsi bahwa matriks kedua tentang tipe Store adalah statis dan saya dapat dengan mudah bergabung ke data uji?
Apa yang terjadi jika ada lubang di set fitur data pengujian saya, katakanlah untuk beberapa baris dalam data pengujian, saya tidak memiliki nilai "Promo".
Customers
data sangat spesifik untuk kompetisi. Jika Anda tidak yakin bagaimana menangani nilai yang hilang secara umum untuk ML (seperti Promo
nilai kosong ), mungkin ada baiknya mengubah pertanyaan ini hanya tentang masalah itu saja. Sudah ada beberapa jawaban tentang itu di situs ini, misalnya datasetcience.stackexchange.com/questions/8322/…