Stochastic Gradient Descent didahului oleh Stochastic Approximation seperti yang pertama kali dijelaskan oleh Robbins dan Monro dalam makalahnya, A Stochastic Approximation Method . Kiefer dan Wolfowitz kemudian menerbitkan makalah mereka, Estimasi Stochastic dari Maksimum dari Fungsi Regresiyang lebih dikenali oleh orang-orang yang akrab dengan varian ML dari Stochastic Approximation (yaitu Stochastic Gradient Descent), seperti yang ditunjukkan oleh Mark Stone dalam komentar. 60-an melihat banyak penelitian sepanjang nada itu - Dvoretzky, Powell, Blum semua hasil yang dipublikasikan yang kami terima begitu saja hari ini. Ini adalah lompatan yang relatif kecil untuk mendapatkan dari metode Robbins dan Monro ke metode Kiefer Wolfowitz, dan hanya membingkai ulang masalah untuk kemudian sampai ke Stochastic Gradient Descent (untuk masalah regresi). Makalah di atas secara luas dikutip sebagai anteseden Stochastic Gradient Descent, seperti yang disebutkan dalam makalah tinjauan oleh Nocedal, Bottou, dan Curtis , yang memberikan perspektif sejarah singkat dari sudut pandang Machine Learning.
Saya percaya bahwa Kushner dan Yin dalam buku mereka Stochastic Approximation dan Recursive Algorithms and Applications menyarankan bahwa gagasan tersebut telah digunakan dalam teori kontrol sejauh 40-an, tetapi saya tidak ingat apakah mereka memiliki kutipan untuk itu atau jika itu adalah kutipan. anekdotal, saya juga tidak memiliki akses ke buku mereka untuk mengonfirmasi hal ini.
Herbert Robbins dan Sutton Monro Metode Pendekatan Stochastic
The Annals of Mathematical Statistics, Vol. 22, No. 3. (Sep., 1951), hlm. 400-407.
J. Kiefer dan J. Wolfowitz Estimasi Stochastic dari Maksimum Fungsi Regresi Ann. Matematika Statist. Volume 23, Nomor 3 (1952), 462-466
Leon Bottou dan Frank E. Curtis dan Metode Optimalisasi Nocedal Jorge untuk Pembelajaran Mesin Skala Besar , Laporan Teknis, arXiv: 1606.04838