Pembelajaran terawasi dengan data tidak pasti?

11

Apakah ada metodologi yang ada untuk menerapkan model pembelajaran yang diawasi ke dataset yang tidak pasti? Misalnya, kita memiliki dataset dengan kelas A dan B:

+----------+----------+-------+-----------+
| FeatureA | FeatureB | Label | Certainty |
+----------+----------+-------+-----------+
|        2 |        3 | A     | 50%       |
|        3 |        1 | B     | 80%       |
|        1 |        1 | A     | 100%      |
+----------+----------+-------+-----------+

Bagaimana kita bisa melatih model pembelajaran mesin tentang ini? Terima kasih.

machine-learning supervised-learning

— hyperdo
sumber

11

Sebagai kualitas numerik yang Anda berikan pada data Anda, saya pikir "kepastian" ini pasti dapat digunakan sebagai bobot. Skor "kepastian" yang lebih tinggi meningkatkan bobot datum pada fungsi keputusan, yang masuk akal.

Banyak algoritma pembelajaran yang diawasi mendukung bobot, jadi Anda hanya perlu menemukan versi berbobot dari yang ingin Anda gunakan.

— Pembakar
sumber

2

(+1) Dan karena pada dasarnya bobot akan cenderung bertindak sebagai "ulangan" poin, mungkin algoritma apa pun dapat dimasukkan ke dalam versi berbobot seperti itu, misalnya dalam contoh OP, masukkan [5,8,10] salinan 3 poin, yang mencerminkan kepastian mereka [50,80.100]%. (Ini seharusnya tidak pernah benar-benar diperlukan, seolah-olah itu bisa dilakukan pada prinsipnya, harus ada versi algoritma yang berbobot yang sesuai.)

— GeoMatt22

5

Alih-alih memiliki label A atau B, Anda dapat menggantinya dengan nilai terus menerus dari kepastian - misalnya, berkorespondensi dengan sesuatu yang Anda yakini adalah , berkorespondensi dengan sesuatu yang Anda yakini adalah dan berkorespondensi dengan sesuatu yang Anda yakini. 'kembali 40% pasti adalah . Kemudian, miliki model yang alih-alih memprediksi kelas atau menghasilkan skor antara dan berdasarkan pada seberapa banyak Anda berpikir satu atau yang lain (dan ambangkan skor ini berdasarkan apakah> atau <1/2). Ini mengubah masalah klasifikasi Anda menjadi masalah regresi (yang Anda ambangkan untuk kembali ke pengklasifikasi). $1$ $A$ $0$ $B$ $0.6$ $A$ $A$ $B$ $0$ $1$

Misalnya, Anda dapat memasukkan model linier ke sebagai (di mana adalah kepastian di atas). Kemudian, ketika Anda ingin menguji beberapa data, hubungkan ke model, dan output label jika dan sebaliknya. $\log \frac{p(A|x)}{p(B|x)} = \log \frac{p(A|x)}{1-P(A|x)}$ $\beta_0 + \beta_1^T x$ $p(A|x)$ $A$ $\beta_0 + \beta_1^T x >0$ $B$

— Batman
sumber

Jadi jika Anda memiliki masalah klasifikasi multi-kelas, Anda dapat menetapkan target Anda sebagai vektor dengan panjang yang sama dengan jumlah kelas?

— hyperdo

Jumlah kelas -1, dengan asumsi jumlah kepastian menjadi 100%; contohnya mirip dengan regresi logistik. Banyak pengklasifikasi menghasilkan skor (mis. Estimasi p (class | data) dalam beberapa model). Semua jawaban ini mengusulkan bahwa alih-alih memprediksi kelas secara langsung, lihat kepastian sebagai skor, dan prediksi itu. Lalu, lakukan sesuatu dengan skor.

— Batman