Saya ditugaskan tugas ini untuk menganalisis log server dari aplikasi kami yang berisi log pengecualian, log basis data, log peristiwa, dll. Saya baru mempelajari mesin, kami menggunakan Spark dengan pencarian elastis dan Sparks MLlib (atau PredictionIO). Contoh yang diinginkan hasilnya akan dapat diprediksi berdasarkan log pengecualian yang dikumpulkan untuk dapat memprediksi pengguna mana yang lebih mungkin menyebabkan pengecualian berikutnya dan di mana fitur (dan banyak hal lain untuk melacak dan meningkatkan optimalisasi aplikasi).
Saya telah berhasil memasukkan data dari ElasticSearch ke dalam percikan dan membuat DataFrames dan memetakan data yang dibutuhkan. Yang ingin saya ketahui adalah bagaimana saya mendekati aspek Machine Learning dari implementasi saya. Saya telah membaca artikel dan makalah yang membahas tentang preprocessing data, melatih model data dan membuat label dan kemudian menghasilkan prediksi.
Pertanyaan yang saya miliki adalah
Bagaimana cara pendekatan mentransformasikan data log yang ada menjadi vektor numerik yang dapat digunakan untuk kumpulan data yang akan dilatih.
Algoritma apa yang saya gunakan untuk melatih dataset saya (dengan pengetahuan terbatas yang telah saya kumpulkan beberapa hari terakhir, saya berpikir tentang menerapkan regresi linier, mohon sarankan implementasi mana yang terbaik)
Hanya mencari saran tentang cara mendekati masalah ini.
Terima kasih.