Sayangnya, jawaban yang sekarang diterima oleh @Sycorax, meskipun terperinci, tidak benar.
Sebenarnya, contoh utama dari regresi melalui lintas-entropi kategoris - Wavenet - telah diterapkan di TensorFlow .
Prinsipnya adalah bahwa Anda menentukan ruang output Anda dan kemudian model Anda hanya memprediksi bin masing-masing; lihat Bagian 2.2 makalah untuk contoh dalam domain pemodelan suara. Jadi, sementara secara teknis model melakukan klasifikasi, tugas akhirnya diselesaikan adalah regresi.
Kelemahan yang jelas adalah, bahwa Anda kehilangan resolusi output. Namun, ini mungkin bukan masalah (setidaknya saya berpikir bahwa asisten buatan Google berbicara dengan suara yang sangat manusiawi ) atau Anda dapat bermain-main dengan beberapa post-processing, misalnya interpolasi antara tempat sampah yang paling mungkin dan dua tetangga.
Di sisi lain, pendekatan ini membuat model jauh lebih kuat dibandingkan dengan output unit-linier biasa, yaitu memungkinkan untuk mengekspresikan prediksi multi-modal atau untuk menilai kepercayaan itu. Namun perlu dicatat bahwa yang terakhir dapat dicapai secara alami dengan cara lain, misalnya dengan memiliki output varians (log) eksplisit seperti dalam Variational Autoencoder.
Bagaimanapun, pendekatan ini tidak skala baik untuk keluaran lebih-dimensi, karena kemudian ukuran lapisan keluaran tumbuh secara eksponensial, menjadikannya baik masalah komputasi dan pemodelan ..