Kumpulan data gratis untuk klasifikasi dimensi sangat tinggi [ditutup]


35

Apa set data yang tersedia secara bebas untuk klasifikasi dengan lebih dari 1000 fitur (atau titik sampel jika mengandung kurva)?

Sudah ada wiki komunitas tentang kumpulan data gratis: Menemukan sampel data yang tersedia secara bebas

Tapi di sini, akan menyenangkan untuk memiliki daftar yang lebih fokus yang dapat digunakan dengan lebih nyaman , juga saya mengusulkan aturan berikut:

  1. Satu pos per dataset
  2. Tidak ada tautan ke set dataset
  3. setiap kumpulan data harus dikaitkan dengan

    • sebuah nama (untuk mencari tahu apa itu tentang) dan link ke dataset (dataset R dapat diberi nama dengan nama paket)

    • jumlah fitur (katakanlah itu p ) ukuran dataset (katakanlah itu n ) dan jumlah label / kelas (katakanlah itu k )

    • tingkat kesalahan tipikal dari pengalaman Anda (sebutkan algoritma yang digunakan untuk kata-kata) atau dari literatur (dalam hal ini menghubungkan kertas)


+1, tetapi yang dari NIPS2003 hanya memiliki train.labels - makalah NIPS2003 mengatakan dengan jelas "validasi dan label test set ditahan".
denis

Terima kasih. Komentar tentang NIPS adalah untuk jawaban dari @mbq.
robin girard

Adakah yang punya dataset dimensional tinggi dengan lebih dari dua label kelas?
hlin117

Jawaban:


3

Dorothea
n = 1950
p = 100000 (0,1M, setengahnya adalah noise yang ditambahkan secara buatan)
k = 2 (~ 10x tidak seimbang)
Dari NIPS2003 .


Bisakah Anda jelaskan bagaimana ini 100000 fitur? Saya melihat data pelatihan dan setiap baris mungkin memiliki 2500 bilangan bulat per baris.
JeremyKun

Ini adalah array yang jarang, integer N berarti atribut nilai N adalah 1.


3

Dexter
n = 2600
p = 20000 (10k + 53 adalah noise buatan)
k = 2 (seimbang)
Dari NIPS2003 .


Saya tidak mengerti ... satu set per orang?

@robin & @mbq Saya sarankan untuk menyimpannya satu dataset per posting. Ini sehingga orang dapat menunjukkan dengan suara yang mana dari yang disarankan di sana juga menyarankan / mendukung
Peter Smit

@ Peter, OK, saya mengikuti ide Anda, saya telah mengubah pertanyaan sesuai.
robin girard


2

Prostat (susunan ekspresi gen)

  • k = 2
  • n = 48 + 52
  • p = 6033

Tersedia melalui (antara lain) Paket R spls nama dataset: prostate

tingkat kesalahan = 3/102 (lihat di sini ) juga saya pikir ada kertas yang menunjukkan tingkat kesalahan 1/102. Saya akan mengatakan ini adalah ujian mudah.

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.