Menggunakan peta pengorganisasian diri untuk pengurangan dimensi


8

Selama beberapa hari terakhir, saya telah melakukan beberapa penelitian tentang pengorganisasian peta untuk sebuah proyek di sekolah. Saya telah memahami bahwa peta yang dapat diatur sendiri dapat digunakan untuk mengurangi dimensi data Anda. Namun, saya tidak mengerti cara kerjanya. Misalnya, Anda memiliki jaringan 10x10 neuron dalam SOM, dan input Anda adalah 25-dimensi. Jadi, menurut pemahaman saya, Anda akan membuat vektor fitur untuk setiap neuron yang juga 25D. Pada saat pelatihan selesai, Anda akan mendapatkan 100 vektor 25D. Bagaimana ini persis mengurangi dimensi data? Apakah saya seharusnya peduli dengan lokasi neuron?

EDIT: Saya sudah membaca pertanyaan Pengurangan dimensi menggunakan peta yang diatur sendiri tetapi saya tidak merasa itu menjawab pertanyaan yang saya miliki.

Jawaban:


12

Peta pengorganisasian diri (SOM) adalah kisi pengisi ruang yang menyediakan pengurangan dimensi diskritisasi data.

Anda mulai dengan ruang titik data berdimensi tinggi, dan kisi sembarang yang berada di ruang itu. Grid dapat dari dimensi apa saja, tetapi biasanya lebih kecil dari dimensi dataset Anda, dan biasanya 2D, karena itu mudah divisualisasikan.

Untuk setiap datum di set data Anda, Anda menemukan titik grid terdekat, dan "tarik" titik grid itu ke set data. Anda juga menarik masing-masing titik kisi yang berdekatan ke posisi baru dari titik kisi pertama. Pada awal proses, Anda menarik banyak tetangga ke titik data. Kemudian dalam proses, ketika kisi Anda mulai mengisi ruang, Anda memindahkan lebih sedikit tetangga, dan ini bertindak sebagai semacam penyempurnaan. Proses ini menghasilkan seperangkat titik dalam ruang data yang sesuai dengan bentuk ruang dengan cukup baik, tetapi juga dapat diperlakukan sebagai kotak dimensi-lebih rendah.

Ini adalah proses yang dijelaskan dengan baik oleh dua gambar dari halaman 1468 dari makalah Kohonen 1990 :

Gambar ini menunjukkan peta satu dimensi dalam distribusi seragam dalam segitiga. Kotak mulai sebagai kekacauan di tengah, dan secara bertahap ditarik ke dalam kurva yang mengisi segitiga dengan cukup baik, mengingat jumlah titik kotak:

SOM satu dimensi

Bagian kiri dari gambar kedua ini menunjukkan kisi SOM 2D yang dengan penuh mengisi ruang yang ditentukan oleh bentuk kaktus di sebelah kiri:

SOM kaktus 2D

Ada video proses SOM menggunakan grid 2D di ruang 2D, dan dalam ruang 3D di youtube.

Sekarang setiap titik data asli di ruang memiliki satu tetangga terdekat, yang ditugaskan. Grid dengan demikian merupakan pusat dari kumpulan titik data. Kotak menyediakan pengurangan dimensi.

Berikut ini adalah perbandingan pengurangan dimensi menggunakan analisis komponen utama (PCA), dari halaman SOM di wikipedia :

Pengurangan dimensi SOM dari en.wikipedia.org/wiki/File:SOMsPCA.PNG

Segera terlihat bahwa SOM satu dimensi memberikan kesesuaian yang jauh lebih baik terhadap data, menjelaskan lebih dari 93% varians, dibandingkan dengan 77% untuk PCA. Namun, sejauh yang saya ketahui, tidak ada cara mudah untuk menjelaskan varians yang tersisa, seperti halnya dengan PCA (menggunakan dimensi ekstra), karena tidak ada cara yang rapi untuk membuka data di sekitar grid SOM diskrit.


2

Terlepas dari kenyataan bahwa Anda berakhir dengan lebih banyak node daripada dimensi fitur, Anda masih mengurangi dimensi. Ingatlah bahwa pada awalnya Anda memiliki ruang 25 dimensi dan, sekarang, Anda memproyeksikan 25 dimensi tersebut hanya dalam 2 dimensi. Alih-alih mewakili ruang 25-dimensi terus menerus penuh, SOM memberikan Anda poin 'paling penting' di ruang itu.

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.