Alasan gradien online berguna adalah untuk aplikasi skala besar. Bagaimanapun, sekarang ada perpustakaan yang mengimplementasikannya sehingga Anda tidak perlu memprogramnya. Ini adalah cara yang baik untuk mempelajari cara kerja berbagai hal.
Pembelajaran mesin skala besar pertama kali didekati sebagai masalah teknik. Misalnya, untuk memanfaatkan perangkat pelatihan yang lebih besar, kita dapat menggunakan komputer paralel untuk menjalankan algoritma pembelajaran mesin yang dikenal atau mengadaptasi metode numerik yang lebih maju untuk mengoptimalkan fungsi tujuan pembelajaran mesin yang dikenal. Pendekatan semacam itu bergantung pada asumsi menarik bahwa seseorang dapat memisahkan aspek statistik dari aspek komputasi masalah pembelajaran mesin.
Pekerjaan ini menunjukkan bahwa asumsi ini salah, dan menyerah itu mengarah pada algoritma pembelajaran yang jauh lebih efektif. Kerangka teori baru memperhitungkan efek perkiraan optimasi pada algoritma pembelajaran.
Analisis menunjukkan pengorbanan yang berbeda untuk kasus masalah pembelajaran skala kecil dan besar. Masalah pembelajaran skala kecil tunduk pada tradeoff aproksimasi-estimasi yang biasa. Masalah pembelajaran skala besar tunduk pada tradeoff kualitatif yang berbeda yang melibatkan kompleksitas komputasi dari algoritma optimasi yang mendasari dalam cara-cara non-sepele. Sebagai contoh, algoritma Stochastic Gradient Descent (SGD) nampaknya merupakan algoritma optimasi yang biasa-biasa saja, namun terbukti memiliki kinerja yang sangat baik pada masalah pembelajaran skala besar.