Murid-murid saya melakukan ini sebagai proyek kelas mereka. Beberapa tim mencapai akurasi 70%, dengan sampel yang cukup kecil, yang tidak buruk.
Katakanlah Anda memiliki beberapa data seperti ini:
Return Symbol News Text
-4% DELL Centegra and Dell Services recognized with Outsourcing Center's...
7% MSFT Rising Service Revenues Benefit VMWare
1% CSCO Cisco Systems (CSCO) Receives 5 Star Strong Buy Rating From S&P
4% GOOG Summary Box: Google eyes more government deals
7% AAPL Sohu says 2nd-quarter net income rises 10 percent on higher...
Anda ingin memprediksi pengembalian berdasarkan teks.
Ini disebut Text Mining.
Apa yang Anda lakukan pada akhirnya adalah membuat matriks besar seperti ini:
Return Centegra Rising Services Recognized...
-4% 0.23 0 0.11 0.34
7% 0 0.1 0.23 0
...
Itu memiliki satu kolom untuk setiap kata unik, dan satu baris untuk setiap pengembalian, dan skor tertimbang untuk setiap kata. Skor tersebut sering berupa skor TFIDF, atau frekuensi relatif dari kata dalam dokumen.
Kemudian Anda menjalankan regresi dan melihat apakah Anda dapat memprediksi kata mana yang memprediksi pengembalian. Anda mungkin harus menggunakan PCA terlebih dahulu.
Buku: Fundamentals of Predictive Text Mining, Weiss
Perangkat lunak: RapidMiner dengan Plugin Teks atau R
Anda juga harus melakukan pencarian di Google Cendekia dan membaca seluk beluk.
Anda dapat melihat seri video penambangan teks saya di sini