Dalam banyak aplikasi pembelajaran mesin, metode augmentasi data yang disebut telah memungkinkan membangun model yang lebih baik. Misalnya, asumsikan satu set pelatihan gambar kucing dan anjing. Dengan memutar, mirroring, menyesuaikan kontras, dll. Dimungkinkan untuk menghasilkan gambar tambahan dari yang asli.
Dalam hal gambar, augmentasi data relatif mudah. Namun, anggaplah (misalnya) bahwa seseorang memiliki serangkaian pelatihan sampel dan beberapa ratus variabel kontinu yang mewakili hal-hal yang berbeda. Augmentasi data tidak lagi tampak intuitif. Apa yang bisa dilakukan dalam kasus seperti itu?