Menemukan sampel data yang tersedia secara bebas


98

Saya telah bekerja pada metode baru untuk menganalisis dan mengurai dataset untuk mengidentifikasi dan mengisolasi subkelompok populasi tanpa mengetahui karakteristik subkelompok mana pun. Sementara metode ini bekerja cukup baik dengan sampel data buatan (yaitu kumpulan data yang dibuat khusus untuk tujuan mengidentifikasi dan memisahkan subset populasi), saya ingin mencoba mengujinya dengan data langsung.

Apa yang saya cari adalah sumber data yang tersedia secara bebas (yaitu non-rahasia, non-eksklusif). Lebih disukai yang mengandung distribusi bimodal atau multimodal atau jelas terdiri dari beberapa himpunan bagian yang tidak dapat dengan mudah dipisahkan melalui cara tradisional. Ke mana saya akan pergi untuk mencari informasi seperti itu?



4
Anda mungkin menyukai getthedata.org situs tanya jawab yang didedikasikan untuk menemukan kumpulan data
Jeromy Anglim

Jawaban:



46


17

Bank Dunia menawarkan cukup banyak data menarik dan baru-baru ini sangat aktif dalam mengembangkan API yang bagus untuk itu.

Juga, komugrat proyek memiliki daftar menarik yang tersedia.

Untuk kepala data terkait kesehatan AS untuk Gudang Indikator Kesehatan .

Blog Daniel Lemire menunjukkan beberapa contoh menarik (kebanyakan disesuaikan dengan penelitian DB) termasuk Canadian Sensus 1880 dan laporan cloud synoptic .

Dan untuk hari ini (03/04/2012) catatan sensus US 1940 juga tersedia untuk diunduh.


2
Bank Dunia akan bekerja ekstra dengan data terbuka dan peta, untuk Stata dan R.
Fr.

13

Gapminder memiliki nomor (430 pada tampilan terakhir) dari kumpulan data, yang mungkin atau mungkin tidak berguna bagi Anda.


11

MLComp memiliki beberapa set data yang menarik, dan sebagai bonus, algoritma Anda akan mendapat peringkat jika Anda mengunggahnya.


10

Tempat yang baik untuk melihat adalah Perpustakaan Data dan Cerita Universitas Carnegie Mellon atau DASL , yang berisi file data yang "menggambarkan penggunaan metode statistik dasar ... Contoh yang baik dapat membuat pelajaran tentang metode statistik tertentu yang jelas dan relevan. DASL adalah dirancang untuk membantu para guru menemukan dan mengidentifikasi datafile untuk pengajaran. Kami berharap bahwa DASL juga akan berfungsi sebagai arsip untuk kumpulan data dari literatur statistik. "


9

Mulai R dan ketik data(). Ini akan menampilkan semua dataset di jalur pencarian. Banyak set data tambahan tersedia dalam paket tambahan. Sebagai contoh, ada beberapa dataset ilmu sosial dunia nyata yang menarik dalam AERpaket.




5

Jaringan Stack Exchange sekarang memiliki situs baru, Open Data (dalam versi beta per 5 Maret 2015), didedikasikan untuk data. Ini menggambarkan dirinya sebagai:

Open Data Stack Exchange adalah situs tanya jawab untuk pengembang dan peneliti yang tertarik pada data terbuka. Ini dibuat dan dijalankan oleh Anda sebagai bagian dari jaringan Stack Exchange situs Q&A. Dengan bantuan Anda, kami bekerja sama untuk membangun perpustakaan jawaban terperinci untuk setiap pertanyaan tentang data terbuka.

"Data terbuka" mengacu pada kumpulan data yang "tersedia secara bebas bagi semua orang untuk digunakan dan diterbitkan ulang sesuai keinginan, tanpa batasan dari hak cipta, paten, atau mekanisme kontrol lainnya" ( Wikipedia ). Namun, situs tersebut tampaknya menerima permintaan untuk dataset tertutup .








2

Mencari set data yang sesuai untuk kebutuhan saya, saya baru saja menemukan dua situs yang berkaitan dengan diskusi ini.

Datacite.org yang menggambarkan dirinya sebagai ...

Kami adalah organisasi internasional yang bertujuan untuk:

  • membangun akses yang lebih mudah ke data penelitian
  • meningkatkan penerimaan data penelitian sebagai kontribusi yang sah dalam catatan ilmiah, dan untuk
  • mendukung pengarsipan data untuk memungkinkan hasil diverifikasi dan ditujukan kembali untuk studi di masa depan.

DataBib.org yang menggambarkan dirinya sebagai ...

Databib adalah alat untuk membantu orang mengidentifikasi dan menemukan repositori data penelitian online. Pengguna dan bibliografi membuat dan membuat catatan yang menjelaskan repositori data yang dapat dicari pengguna.

Kupikir akan layak menambahkannya ke daftar di sini untuk orang lain.

Sekarang untuk menemukan sesuatu dalam tautannya yang sesuai dengan kebutuhan saya!


2

Saya sangat merekomendasikan memeriksa quandl.com . Ini adalah impian para programmer data. Ini menyediakan satu API yang sangat mudah untuk mengakses salah satu dari lebih dari 10 juta data duduk. Anda mencari data bi-modial atau multi-variate, jadi saya akan menyarankan memeriksa berbagai set data populasi misalnya grafik populasi dunia ini berisi sub komponen negara dan wilayah yang masuk ke total.


1
Beberapa data quandl gratis, beberapa "Premium" yaitu biaya $$. Juga mimpi API saya termasuk nrows seri waktu, ncols, dan plot online (saya ingin kuda poni).
denis






Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.