Tujuan memvisualisasikan data dimensi tinggi?


23

Ada banyak teknik untuk memvisualisasikan kumpulan data berdimensi tinggi, seperti T-SNE, isomap, PCA, PCA yang diawasi, dll. Dan kami melalui gerakan memproyeksikan data ke ruang 2D atau 3D, jadi kami memiliki "gambar-gambar cantik" ". Beberapa metode penanaman (manifold learning) ini dijelaskan di sini .

masukkan deskripsi gambar di sini

Tapi apakah "gambar cantik" ini benar-benar bermakna? Wawasan apa yang dapat diambil seseorang dengan mencoba memvisualisasikan ruang tersemat ini?

Saya bertanya karena proyeksi ke ruang yang disematkan ini biasanya tidak ada artinya. Misalnya, jika Anda memproyeksikan data Anda ke komponen utama yang dihasilkan oleh PCA, komponen utama tersebut (vektor eigan) tidak sesuai dengan fitur dalam dataset; mereka adalah ruang fitur mereka sendiri.

Demikian pula, t-SNE memproyeksikan data Anda ke suatu ruang, di mana item berada di dekat satu sama lain jika mereka meminimalkan beberapa perbedaan KL. Ini bukan ruang fitur asli lagi. (Koreksi saya jika saya salah, tapi saya bahkan tidak berpikir ada upaya besar oleh komunitas ML untuk menggunakan t-SNE untuk membantu klasifikasi; itu masalah yang berbeda dari visualisasi data.)

Saya hanya sebagian besar bingung mengapa orang membuat masalah besar tentang beberapa visualisasi ini.


Ini bukan hanya tentang "gambar cantik" tetapi tujuan memvisualisasikan data dimensi tinggi serupa untuk memvisualisasikan data 2/3 dimensi biasa. misalnya korelasi, batas dan pencilan.
eliasah

@eliasah: Saya mengerti itu. Tetapi ruang yang Anda gunakan untuk memproyeksikan data Anda bukan ruang yang asli lagi, yang dapat mendistorsi beberapa bentuk dalam dimensi tinggi. Katakanlah Anda memiliki gumpalan dalam 4 dimensi. Segera setelah Anda memproyeksikannya ke 2D atau 3D, struktur Anda sudah hancur.
hlin117

Tidak jika data terletak di manifold dimensi rendah, seperti pada ilustrasi Anda. Menentukan manifold ini adalah tujuan dari manifold learning.
Emre

Jawaban:


9

Saya mengambil Natural Language Processing sebagai contoh karena itulah bidang yang saya punya lebih banyak pengalaman sehingga saya mendorong orang lain untuk berbagi wawasan mereka di bidang lain seperti di Computer Vision, Biostatistics, time series, dll. Saya yakin di bidang-bidang itu ada contoh serupa.

Saya setuju bahwa kadang-kadang visualisasi model dapat menjadi tidak berarti tetapi saya pikir tujuan utama visualisasi semacam ini adalah untuk membantu kami memeriksa apakah model tersebut benar-benar berhubungan dengan intuisi manusia atau model lain (non-komputasi). Selain itu, Analisis Data Eksplorasi dapat dilakukan pada data.

Mari kita asumsikan kita memiliki model penyisipan kata yang dibangun dari corpus Wikipedia menggunakan Gensim

model = gensim.models.Word2Vec(sentences, min_count=2)

Kami kemudian akan memiliki vektor 100 dimensi untuk setiap kata diwakili dalam korpus yang hadir setidaknya dua kali. Jadi jika kita ingin memvisualisasikan kata-kata ini kita harus menguranginya menjadi 2 atau 3 dimensi menggunakan algoritma t-sne. Di sinilah karakteristik yang sangat menarik muncul.

Ambil contoh:

vektor ("raja") + vektor ("pria") - vektor ("wanita") = vektor ("ratu")

http://multithreaded.stitchfix.com/blog/2015/03/11/word-is-worth-a-thousand-vectors/

Di sini setiap arah menyandikan fitur semantik tertentu. Hal yang sama dapat dilakukan dalam 3d

https://www.tensorflow.org/versions/master/images/linear-relationships.png
(sumber: tensorflow.org )

Lihat bagaimana dalam contoh ini past tense terletak di posisi tertentu yang masing-masing partisipannya. Sama untuk gender. Sama dengan negara dan ibukota.

Dalam dunia embedding kata, model yang lebih tua dan lebih naif, tidak memiliki properti ini.

Lihat kuliah Stanford ini untuk lebih jelasnya. Representasi Vektor Kata Sederhana: word2vec, GloVe

Mereka hanya terbatas pada pengelompokan kata-kata yang sama bersama-sama tanpa memperhatikan semantik (jenis kelamin atau kata kerja tidak dikodekan sebagai arah). Model yang tidak mengejutkan yang memiliki penyandian semantik sebagai arah dalam dimensi yang lebih rendah lebih akurat. Dan yang lebih penting, mereka dapat digunakan untuk menjelajahi setiap titik data dengan cara yang lebih tepat.

Dalam kasus khusus ini, saya tidak berpikir t-SNE digunakan untuk membantu klasifikasi saja, itu lebih seperti cek kewarasan untuk model Anda dan kadang-kadang untuk menemukan wawasan dalam korpus tertentu yang Anda gunakan. Adapun masalah vektor tidak berada di ruang fitur asli lagi. Richard Socher menjelaskan dalam ceramah (tautan di atas) bahwa vektor berdimensi rendah berbagi distribusi statistik dengan perwakilannya sendiri yang lebih besar serta properti statistik lainnya yang memungkinkan analisis visual yang masuk akal dalam vektor penyematan dimensi yang lebih rendah.

Sumber daya tambahan & Sumber Gambar:

  1. http://multithreaded.stitchfix.com/blog/2015/03/11/word-is-worth-a-thousand-vectors/

  2. https://www.tensorflow.org/tutorials/word2vec/index.html#motivation_why_learn_word_embeddings%3F

  3. http://deeplearning4j.org/word2vec.html

  4. https://www.tensorflow.org/tutorials/word2vec/index.html#motivation_why_learn_word_embeddings%3F


11

Pertama-tama, penjelasan Anda tentang metode itu benar. Intinya adalah bahwa algoritma Embedding tidak hanya memvisualisasikan tetapi pada dasarnya mengurangi dimensi untuk mengatasi dua masalah utama dalam Analisis Data Statistik, yaitu Kutukan Dimensialiy dan Masalah Ukuran Sampel Rendah sehingga mereka tidak seharusnya menggambarkan fitur yang dipahami secara fisik dan mereka tidak hanya bermakna tetapi juga diperlukan untuk analisis data!

Sebenarnya visualisasi hampir merupakan penggunaan terakhir dari metode penyematan. Memproyeksikan data dimensi tinggi ke dalam ruang dimensi rendah membantu menjaga jarak pasangan-bijaksana yang sebenarnya (terutama Euclidean) yang terdistorsi dalam dimensi tinggi atau menangkap sebagian besar informasi yang tertanam dalam varian fitur yang berbeda.


10

Richard Hamming dikaitkan dengan kalimat: "Tujuan komputasi adalah wawasan, bukan angka." Dalam makalah akademis tahun 1973 ini (lihat diskusi dalam Apa kumpulan data terkenal yang terlihat sangat berbeda tetapi memiliki statistik ringkasan yang serupa?), Francis Anscombe berpendapat bahwa "grafik sangat penting untuk analisis statistik yang baik." Kuartet Anscombe adalah favorit lama: statistik dan regresi yang sama, dimensi rendah, namun perilaku yang sangat berbeda, mengenai kebisingan, pencilan, ketergantungan. Proyeksi data dalam 11 dimensi ke dua dimensi yang ditunjukkan di bawah ini cukup menyesatkan: satu memiliki korelasi dan dispersi, yang kedua (bawah ke bawah) memiliki kecocokan yang tepat, kecuali satu outlier. Yang ketiga memiliki hubungan yang jelas, tetapi tidak linier. Yang keempat menunjukkan variabel yang berpotensi tidak terkait, kecuali untuk ambang batas.

masukkan deskripsi gambar di sini

Dalam buku Analisis Multivariat untuk Biobehavioral dan Ilmu Sosial oleh Bruce L. Brown et al. , kita dapat menemukan:

Dalam karyanya tahun 1990 "Drawing Things Together," Latour mengklaim bahwa pola pikir para ilmuwan keras adalah salah satu "obsesi" intens dengan grafisme

Baik terbatas pada ruang 3D, hingga plot enam dimensi (ruang, warna, bentuk, dan waktu), atau bahkan membayangkan dimensi kesepuluh , manusia memiliki pemandangan terbatas. Hubungan antara fenomena yang bisa diamati: tidak.

Selain itu, kutukan dimensi itu bermacam-macam bahkan dengan paradoks dimensi rendah, untuk memberikan beberapa:

Bahkan jika semua norma setara dalam dimensi terbatas, hubungan antar variabel mungkin menyesatkan. Ini adalah salah satu alasan untuk menjaga jarak dari satu ruang ke ruang lainnya. Konsep semacam itu merupakan inti dari embedding dimensi rendah untuk sinyal (seperti penginderaan tekan dan lemma Johnson-Lindenstauss mengenai embedding distorsi rendah dari titik dari dimensi tinggi ke ruang Euclidean dimensi rendah) atau fitur ( hamburan transformasi untuk klasifikasi) .

Jadi visualisasi adalah bantuan lain dalam mendapatkan wawasan dalam data, dan itu berjalan seiring dengan perhitungan, termasuk pengurangan dimensi.

nn

Paradoks kotak pizza

Dalam dua dimensi, bola biru tengah kecil. Dalam 3D juga. Tapi dengan sangat cepat, bola tengah tumbuh dan jari-jarinya melebihi kubus. Wawasan ini sangat penting dan mengelompok, misalnya.


4

Berdasarkan pernyataan dan diskusi, saya pikir ada poin penting untuk dibedakan. Transformasi ke ruang dimensi yang lebih rendah dapat mengurangi informasi, yang merupakan sesuatu yang berbeda dari membuat informasi menjadi tidak berarti . Biarkan saya menggunakan analogi berikut:

Mengamati (2D) gambar dunia kita (3D) adalah praktik yang biasa. Metode visualisasi hanya menyediakan "kacamata" yang berbeda untuk melihat ruang dimensi tinggi.

Hal yang baik untuk “mempercayai” metode visualisasi adalah memahami bagian dalam. Contoh favorit saya adalah MDS . Sangat mudah untuk mengimplementasikan metode ini sendiri menggunakan beberapa alat optimisasi (mis. R optim ). Jadi Anda bisa melihat bagaimana kata-kata metode, Anda dapat mengukur kesalahan hasil dll.

Pada akhirnya Anda mendapatkan gambar yang menjaga kesamaan data asli dengan tingkat presisi tertentu. Tidak lebih, tetapi tidak kurang.


4

Terkadang, memvisualisasikan data dimensi tinggi sangat berarti karena dapat memberi tahu kita fisika.

Setidaknya ada satu contoh dalam astrofisika di mana Anda memproyeksikan data Anda ke komponen utama yang dihasilkan oleh PCA dan komponen utama tersebut berhubungan dengan banyak wawasan fisik tentang galaksi. Untuk detail, lihat gambar terakhir di http://www.astroml.org/sklearn_tutorial/dimensionality_reduction.html#id2

dan kertas masuk

http://iopscience.iop.org/article/10.1086/425626/pdf

Inilah ide dasarnya. Para penulis menerapkan PCA ke banyak spektrum (misalnya, 10.000) dari teleskop. Setiap spektrum memiliki ~ 1000 atribut. Karena kumpulan data ini memiliki dimensi besar, sulit untuk memvisualisasikannya. Namun, 4 komponen pertama dari PCA mengungkapkan banyak fisika tentang spektrum (lihat bagian 4.1-4.4 dalam makalah di atas).


4

Mengambil pendekatan yang sedikit berbeda dari jawaban-jawaban hebat lainnya di sini, "gambaran cantik" bernilai ribuan kata. Pada akhirnya, Anda perlu menyampaikan temuan Anda kepada seseorang yang tidak melek secara statistik, atau yang tidak punya waktu, minat, atau apa pun, untuk memahami situasi sepenuhnya. Itu tidak berarti kita tidak dapat membantu orang itu untuk memahami, setidaknya konsep umum atau bagian dari kenyataan. Inilah yang dilakukan oleh buku-buku seperti Freakonomics - ada sedikit atau tidak ada matematika, tidak ada set data, namun temuan masih disajikan.

Dari seni, lihat Marshal Ney di Retreat di Rusia . Penyederhanaan besar perang Napoleon yang masif ini tetap mengandung makna besar dan memungkinkan orang-orang dengan pengetahuan perang yang paling bodoh sekalipun untuk memahami kebrutalan, iklim, bentang alam, kematian, dan kesopanan yang meresapi invasi Rusia.

Pada akhirnya grafik hanyalah komunikasi, dan untuk lebih baik atau lebih buruk, komunikasi manusia sering kali berfokus pada penyatuan, penyederhanaan, dan singkatnya.


3

Pertanyaan yang sangat bagus Dalam bab 4 dari "Menerangi Jalan, Agenda Penelitian dan Pengembangan untuk Analisis Visual" oleh James J. Thomas dan Kristin A. Cook adalah diskusi tentang representasi data dan transformasi data. Dalam penelitian saya, saya telah mendekati pertanyaan ini dalam konteks PCA dan analisis faktor. Jawaban singkat saya adalah bahwa visualisasi berguna jika seseorang memiliki transformasi data untuk pindah dari ruang visualisasi ke ruang data asli. Ini juga akan dilakukan dalam kerangka analitik visual.


Memiliki pemetaan dari ruang yang diproyeksikan ke ruang asli masuk akal. Namun, apakah ada kasus penggunaan lain?
hlin117

Saya juga melihat bab 4 dari "Menerangi Jalan, Agenda Penelitian dan Pengembangan untuk Analisis Visual". Itu tidak menyebutkan apa pun tentang visualisasi dimensi tinggi pada ruang bagian yang terlihat.
hlin117
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.