Sebagai soal fakta, saya punya masalah yang semakin kecil dengan meningkatnya data. Salah satu aplikasi saya mencatat atribut produk tertentu, misalnya keju. Atribut misalnya CheeseType, Merek, Negara, Area, MilkType, dll. Setiap bulan atau lebih, saya mendapatkan daftar keju baru yang masuk ke pasar selama waktu itu, beserta atributnya. Sekarang, atribut-atribut ini diketik dengan tangan oleh sekelompok manusia. Beberapa membuat kesalahan ketik, atau tidak tahu nilai untuk semua atribut.
Ketika Anda melakukan pencarian di basis data saya, saya mencoba memprediksi dari statistik seperti apa rasanya keju, berdasarkan pada atribut-atribut ini. Apa yang terjadi, adalah untuk setiap atribut, saya berakhir dengan rentang nilai; ada yang valid ada yang tidak valid. Menghilangkan atau mengoreksi yang tidak valid ini hanya mungkin jika saya memiliki cukup data. Ini tentang membuat perbedaan antara nilai nyata dan noise, tanpa menghilangkan nilai yang jarang namun valid.
Seperti yang dapat Anda bayangkan, dengan volume rendah, kebisingan terlalu penting untuk memperbaiki keadaan dengan benar. Jika Anda memiliki 5 contoh Cheddar, 1 Brie, 1 Bri, dan 1 Chedar, bagaimana saya tahu mana yang benar dan mana yang salah ketik? Dengan volume yang lebih banyak, kesalahan pengetikan cenderung tetap sangat rendah, tetapi nilai-nilai langka mendapatkan beberapa peningkatan penting, membuat mereka keluar dari kebisingan (didukung oleh pengalaman). Dalam hal ini, saya bisa membayangkan 50000 Cheddar, 3000 Brie, 5 Bri, 15 Chedar, misalnya.
Jadi ya, beberapa masalah akhirnya bisa diselesaikan sendiri, ketika Anda memiliki cukup data.