Pengujian statistik adalah untuk membuat kesimpulan dari data, ini memberi tahu Anda bagaimana hal-hal terkait. Hasilnya adalah sesuatu yang memiliki makna dunia nyata. Misalnya bagaimana merokok dikaitkan dengan kanker paru-paru, baik dari segi arah dan besarnya. Itu masih tidak memberi tahu Anda mengapa hal-hal terjadi. Untuk menjawab mengapa sesuatu terjadi, kita perlu mempertimbangkan juga hubungan timbal balik dengan variabel-variabel lain dan membuat penyesuaian yang sesuai (lihat Pearl, J. (2003) PENYEBAB: MODEL, REASONING, DAN INFERENSI).
Pembelajaran terawasi adalah untuk membuat prediksi, memberi tahu Anda apa yang akan terjadi. Misalnya, mengingat status merokok seseorang, kita dapat memperkirakan apakah dia menderita kanker paru-paru. Dalam kasus-kasus sederhana, ia masih memberi tahu Anda "bagaimana", misalnya dengan melihat cutoff status merokok yang diidentifikasi oleh algoritma. Tetapi model yang lebih kompleks lebih sulit atau tidak mungkin untuk ditafsirkan (pembelajaran mendalam / meningkatkan dengan banyak fitur).
Pembelajaran tanpa pengawasan sering digunakan dalam memfasilitasi kedua hal di atas.
- Untuk pengujian statistik, dengan menemukan beberapa subkelompok yang mendasari data yang tidak diketahui (pengelompokan), kita dapat menyimpulkan heterogenitas dalam hubungan antar variabel. Misalnya merokok meningkatkan kemungkinan kanker paru-paru untuk subkelompok A tetapi tidak pada subkelompok B.
- Untuk pembelajaran yang diawasi, kami dapat membuat fitur baru untuk meningkatkan akurasi prediksi dan ketahanan. Misalnya dengan mengidentifikasi subkelompok (pengelompokan) atau kombinasi fitur (pengurangan dimensi) yang berhubungan dengan kemungkinan kanker paru-paru.
Ketika jumlah fitur / variabel semakin besar, perbedaan antara pengujian statistik dan pembelajaran yang diawasi menjadi lebih besar. Pengujian statistik mungkin belum tentu mendapat manfaat dari ini, itu tergantung pada misalnya apakah Anda ingin membuat kesimpulan kausal dengan mengendalikan faktor-faktor lain atau mengidentifikasi heterogenitas dalam asosiasi seperti yang disebutkan di atas. Pembelajaran terawasi akan berkinerja lebih baik jika fitur-fiturnya relevan dan itu akan menjadi lebih seperti kotak hitam.
Ketika jumlah sampel bertambah besar, kita bisa mendapatkan hasil yang lebih tepat untuk pengujian statistik, hasil yang lebih akurat untuk pembelajaran yang diawasi dan hasil yang lebih kuat untuk pembelajaran yang tidak diawasi. Tetapi ini tergantung pada kualitas data. Data berkualitas buruk dapat menimbulkan bias atau noise pada hasilnya.
Terkadang kita ingin tahu "bagaimana" dan "mengapa" untuk menginformasikan tindakan intervensi, misalnya dengan mengidentifikasi bahwa merokok menyebabkan kanker paru-paru, kebijakan dapat dibuat untuk mengatasinya. Terkadang kita ingin tahu "apa" untuk menginformasikan pengambilan keputusan, misalnya mencari tahu siapa yang kemungkinan menderita kanker paru-paru dan memberi mereka perawatan dini. Ada masalah khusus yang diterbitkan di Science tentang prediksi dan batasannya ( http://science.sciencemag.org/content/355/6324/468). “Keberhasilan tampaknya dicapai secara paling konsisten ketika pertanyaan ditangani dalam upaya multidisiplin yang menggabungkan pemahaman manusia tentang konteks dengan kapasitas algoritmik untuk menangani terabyte data.” Menurut pendapat saya, misalnya, pengetahuan yang ditemukan menggunakan pengujian hipotesis dapat membantu pembelajaran yang diawasi dengan memberi tahu kami data / fitur apa yang harus kita kumpulkan di tempat pertama. Di sisi lain, pembelajaran yang diawasi dapat membantu menghasilkan hipotesis dengan menginformasikan variabel mana