Algoritma pembelajaran mesin menggunakan optimisasi setiap saat. Kami meminimalkan kehilangan, atau kesalahan, atau memaksimalkan semacam fungsi skor. Gradient descent adalah algoritma optimisasi "hello world" yang tercakup dalam semua kursus pembelajaran mesin. Jelas dalam kasus regresi, atau model klasifikasi, tetapi bahkan dengan tugas-tugas seperti pengelompokan, kami mencari solusi yang secara optimal sesuai dengan data kami (mis. K-means meminimalkan jumlah kuadrat dalam-klaster). Jadi, jika Anda ingin memahami bagaimana algoritma pembelajaran mesin bekerja, belajar lebih banyak tentang optimasi membantu. Selain itu, jika Anda perlu melakukan hal-hal seperti penyetelan hyperparameter, maka Anda juga langsung menggunakan optimasi.
Orang dapat berargumen bahwa optimasi cembung seharusnya tidak begitu menarik untuk pembelajaran mesin karena alih-alih berurusan dengan fungsi cembung , kita sering menghadapi permukaan kehilangan seperti yang di bawah ini, yang jauh dari cembung .
(sumber: https://www.cs.umd.edu/~tomg/projects/landscapes/ dan arXiv: 1712.09913 )
Meskipun demikian, seperti yang disebutkan dalam jawaban lain, optimisasi cembung lebih cepat, lebih sederhana dan kurang intensif secara komputasional, sehingga seringkali lebih mudah untuk "mengembungkan" masalah (membuatnya ramah optimasi cembung), kemudian menggunakan optimasi non-cembung. Sebagai contoh, gradient descent dan alike algoritme umumnya digunakan dalam pembelajaran mesin, terutama untuk jaringan saraf, karena mereka "bekerja", berskala, dan secara luas diimplementasikan dalam perangkat lunak yang berbeda, namun mereka bukan yang terbaik yang bisa kita dapatkan dan memiliki perangkap mereka , seperti yang dibahas oleh ceramah Ali Rahimi di NIPS 2017 .
Di sisi lain, algoritma optimasi non-cembung seperti algoritma evolusioner tampaknya mendapatkan pengakuan yang lebih dan lebih dalam komunitas ML, misalnya pelatihan jaringan saraf dengan neuroevolution tampaknya menjadi topik penelitian terbaru (lihat juga arXiv: 1712.07897 ).