Saya mencoba menggunakan Regresi Hutan Acak di scikits-learn. Masalahnya adalah saya mendapatkan kesalahan tes yang sangat tinggi:
train MSE, 4.64, test MSE: 252.25.
Beginilah tampilan data saya: (biru: data nyata, hijau: diperkirakan):
Saya menggunakan 90% untuk pelatihan dan 10% untuk ujian. Ini adalah kode yang saya gunakan setelah mencoba beberapa kombinasi parameter:
rf = rf = RandomForestRegressor(n_estimators=10, max_features=2, max_depth=1000, min_samples_leaf=1, min_samples_split=2, n_jobs=-1)
test_mse = mean_squared_error(y_test, rf.predict(X_test))
train_mse = mean_squared_error(y_train, rf.predict(X_train))
print("train MSE, %.4f, test MSE: %.4f" % (train_mse, test_mse))
plot(rf.predict(X))
plot(y)
Apa strategi yang mungkin untuk meningkatkan kecocokan saya? Apakah ada hal lain yang bisa saya lakukan untuk mengekstrak model yang mendasarinya? Tampaknya luar biasa bagi saya bahwa setelah begitu banyak pengulangan dari pola yang sama model tersebut berperilaku sangat buruk dengan data baru. Apakah saya punya harapan sama sekali mencoba mencocokkan data ini?