Kumpulan Data yang Tersedia untuk Umum


168

Salah satu masalah umum dalam ilmu data adalah mengumpulkan data dari berbagai sumber dalam format yang entah bagaimana dibersihkan (semi-terstruktur) dan menggabungkan metrik dari berbagai sumber untuk membuat analisis tingkat yang lebih tinggi. Melihat upaya orang lain, terutama pertanyaan lain di situs ini, tampaknya banyak orang di bidang ini melakukan pekerjaan yang agak berulang. Misalnya menganalisis tweet, posting facebook, artikel Wikipedia dll. Adalah bagian dari banyak masalah data besar.

Beberapa kumpulan data ini dapat diakses menggunakan API publik yang disediakan oleh situs penyedia, tetapi biasanya, beberapa informasi atau metrik yang berharga hilang dari API ini dan setiap orang harus melakukan analisis yang sama berulang-ulang. Misalnya, meskipun pengelompokan pengguna mungkin bergantung pada berbagai kasus penggunaan dan pemilihan fitur, tetapi pengelompokan basis pengguna Twitter / Facebook dapat berguna dalam banyak aplikasi Big Data, yang tidak disediakan oleh API atau tersedia secara publik dalam kumpulan data independen .

Apakah ada situs hosting kumpulan data atau indeks yang tersedia untuk umum yang berisi kumpulan data berharga yang dapat digunakan kembali dalam memecahkan masalah big data lainnya? Maksud saya sesuatu seperti GitHub (atau sekelompok situs / kumpulan data publik atau setidaknya daftar komprehensif) untuk ilmu data. Jika tidak, apa alasan untuk tidak memiliki platform untuk ilmu data? Nilai komersial data, perlu memperbarui set data, ...? Bisakah kita tidak memiliki model sumber terbuka untuk berbagi set data yang dirancang untuk ilmuwan data?


18
Pertanyaan ini mungkin lebih sesuai pada opendata.SE khusus . Yang mengatakan, saya menyilangkan jari saya untuk dat , yang bercita-cita menjadi "Git untuk data".
ojdo

2
@ojdo Terima kasih, saya tidak pernah mendengar tentang opendata.SE sebelumnya, saya juga menemukan ini pertanyaan yang menarik (dan sangat mirip) di sana.
Amir Ali Akbari


Saya belum menemukan set data komprehensif gratis yang bagus untuk aplikasi Business Intelligence. The Microsoft Contoso BI Demo Dataset untuk Industri Ritel dari Official Microsoft Download Center Download bekerja dengan beberapa produk Microsoft (lihat AndyGett di SharePoint dan lain Bisnis Software ), tapi saya tidak melihat sql polos atau pembuangan csv itu, maupun lisensi info .
nealmcb

1
Sudahkah Anda bergabung dengan Open Data Stack Exchange? opendata.stackexchange.com
sss4r

Jawaban:


88

Pada kenyataannya, ada daftar yang sangat masuk akal dari kumpulan data yang tersedia untuk umum, didukung oleh berbagai perusahaan / sumber.

Beberapa di antaranya adalah di bawah ini:

Sekarang, dua pertimbangan atas pertanyaan Anda. Pertama, tentang kebijakan berbagi basis data. Dari pengalaman pribadi, ada beberapa database yang tidak dapat dibuat tersedia untuk umum, baik untuk melibatkan pembatasan privasi (seperti untuk beberapa informasi jaringan sosial) atau untuk informasi pemerintah terkait (seperti database sistem kesehatan).

Poin lain menyangkut penggunaan / aplikasi dataset. Meskipun beberapa pangkalan dapat diolah kembali sesuai dengan kebutuhan aplikasi, akan lebih baik jika memiliki beberapa organisasi dataset yang bagus dengan sengaja. The taksonomi harus melibatkan analisis sosial grafik, pertambangan itemset, klasifikasi, dan banyak daerah penelitian lainnya mungkin ada.


64

37

Ada banyak set data yang tersedia secara terbuka, satu yang sering dilupakan orang adalah data.gov . Seperti yang disebutkan sebelumnya, Freebase sangat bagus, demikian juga semua contoh yang diposting oleh @Rubens




25

Untuk data deret waktu khususnya, Quandl adalah sumber yang bagus - direktori yang mudah dijelajahi dari (sebagian besar) deret waktu bersih.

Salah satu fitur paling keren adalah harga saham data terbuka - yaitu data keuangan yang dapat diedit dengan gaya wiki, dan tidak dibebani oleh lisensi.


20

Enigma adalah repositori kumpulan data yang tersedia untuk umum. Paket gratisnya menawarkan pencarian data publik, dengan panggilan API 10k per bulan. Tidak semua database publik terdaftar, tetapi daftar ini cukup untuk kasus umum.

Saya menggunakannya untuk penelitian akademis dan menghemat banyak waktu.


Sumber data menarik lainnya adalah proyek @unitedstates , yang berisi data dan alat untuk mengumpulkannya, tentang Amerika Serikat (anggota Kongres, bentuk geografis ...).


18

Saya ingin menunjukkan Sensus Data Terbuka . Ini adalah inisiatif dari Open Knowledge Foundation berdasarkan kontribusi dari advokat data terbuka dan para ahli di seluruh dunia.

Nilai Open data Census adalah upaya terbuka, berbasis komunitas, dan sistematis untuk mengumpulkan dan memperbarui basis data kumpulan data secara global di negara dan, dalam beberapa kasus, seperti AS, di tingkat kota .

Juga, ini menyajikan kesempatan untuk membandingkan berbagai negara dan kota dalam bidang minat tertentu.


18

Ada juga sumber daya lain yang disediakan oleh The Guardian, British Daily di situs web mereka. Kumpulan data yang diterbitkan oleh Guardian Datablog semuanya diinangi. Kumpulan data yang terkait dengan akun Football Premier League Clubs, informasi Inflasi dan PDB Inggris, data penghargaan Grammy, dll. Kumpulan data tersedia di

Lebih banyak sumber daya. Beberapa set data dalam format R atau ada commad R untuk mengimpor data secara langsung ke R.


17

Google Custom Search

Anda dapat menggunakan Penelusuran Kustom Google untuk kumpulan data:

Google Custom Search: Kumpulan Data

Ini mencakup 230 sumber dan sumber meta set data, termasuk semua yang disebutkan dalam pertanyaan ini. Jangan ragu untuk mengecualikan .gov dan situs web lainnya dari hasil dengan menambahkan "-.gov" atau "-site.com" ke baris pencarian. Operator Pencarian Google lainnya bekerja.

Jangan ragu untuk menghubungi saya jika Anda memiliki ide untuk menambahkan situs web apa.

IOGDS

Layanan berikut mengkategorikan lebih dari 1.000.000 kumpulan data publik:

IOGDS: Pencarian Dataset Pemerintah Terbuka Internasional


Apa parameter untuk tautan pencarian khusus yang Anda berikan? Apakah itu mencari dalam daftar situs web, kata kunci, dll?
Amir Ali Akbari

@AmirAliAkbari Mencari melalui sumber seperti Data.gov, Quandl, dan gudang data utama lainnya.
Anton Tarasenko

16

Jawaban terlambat, tetapi di sini adalah daftar eklektik dari 100+ Set Data Menarik

Posting blog itu menyenangkan dan mudah dibaca (saya tidak punya afiliasi). Layak untuk memindai, dan mengikis beberapa dari atas:

  • Kata-kata terakhir dari setiap tahanan Texas dieksekusi sejak 1984

  • 10.000 gambar kucing yang beranotasi

  • 2,2 juta pertandingan catur





14

Saya baru di forum ini. Terlambat dalam menjawab pertanyaan ini. Saya telah memelihara (saya adalah salah satu pendiri) katalog portal data yang tersedia untuk umum. Ada lebih dari 1000 portal yang sekarang terdaftar dan mencakup di tingkat internasional, federal, negara bagian, kota dan akademik di seluruh dunia.

http://www.opengeocode.org/opendata/


14

Saya terkejut orang tidak menyebutkan ini, karena tampaknya cukup jelas: http://www.kaggle.com secara konsisten memiliki dataset baru dan sangat menarik. Informasi dianggap sebagai aset, sehingga seringkali perusahaan tidak ingin merilis data itu (ditambah masalah privasi). Kaggle memberi Anda data dan mereka berharap Anda memecahkan masalah bisnis dengan itu sebagai gantinya.


14

1
Bisakah Anda memberi kami informasi tentang kedua set data / tautan? Ini memang akan meringankan beban mereka yang mencari tipe data tertentu. Lihatlah tulisan-tulisan lain untuk melihat informasi apa yang tidak ada referensi Anda.
Rubens

11

Seperti yang Anda sebutkan, API adalah bagian yang sulit, bukan data. Quandl tampaknya menyelesaikan masalah ini dengan menyediakan lebih dari 10 juta kumpulan data yang tersedia untuk umum di bawah satu API yang mudah dan tenang. Jika pemrograman tidak cocok dengan Anda, ada alat gratis untuk membuat memuat data ke Excel sangat mudah. Selain itu, jika Anda melakukan menikmati pemrograman, ada beberapa perpustakaan asli di R, Python, Java dan lebih .





9

Satu sumber data lain yang tidak saya lihat tercantum dalam daftar adalah Proyek GDELT . Dari situs:

Proyek GDELT memonitor siaran dunia, cetak, dan berita web dari hampir setiap sudut setiap negara dalam lebih dari 100 bahasa dan mengidentifikasi orang, lokasi, organisasi, jumlah, tema, sumber, dan peristiwa yang mendorong masyarakat global kita setiap detik setiap hari, menciptakan platform terbuka gratis untuk komputasi di seluruh dunia.



6

Saya membuat repo github untuk ini. Kumpulan data tidak besar, tetapi merupakan contoh minimal yang dimaksudkan untuk berlatih dan mengeksplorasi teknik pemodelan prediktif yang kemudian dapat diperluas ke kumpulan data besar.

Machine Learning Problem Bible (MLPB)

Yang keren / unik tentang repo ini adalah bahwa setiap masalah ditandai dengan tag seperti [multi-class], [unbalanced data], [regresi], dll. Sehingga memudahkan untuk menemukan jenis masalah / dataset tertentu.



6

Selain semua kumpulan data ini, jika Anda tertarik pada data yang terkait dengan India. Situs resmi Pemerintah India adalah

Ini menyediakan kumpulan data dari berbagai departemen pemerintah India yang dapat digunakan dengan baik untuk Analisis Data Besar & Pembelajaran Mesin.



4

Hanya kita memuat paket MASS di R kita mengakses beberapa kerangka data atau set data.

install.packages ("MASS") membutuhkan ("MASS")


3

3 set data dari https://www.jc-bingo.com/about

  • visitor-interests.csv Kepentingan pengunjung gabungan disusun berdasarkan log akses web 1 minggu. Termasuk alamat IP pengunjung, string agen pengguna, negara pengunjung, bahasa dan topik halaman yang diakses. 19.926 catatan, 2,9 Mb.
  • user-agents.csv Agen pengguna pengunjung nyata yang dipesan berdasarkan popularitas. 4.826 catatan, 716 Kb.
  • bots.csv Alamat IP robot dan string agen pengguna diekstraksi dari log akses web. 1.293 catatan, 122 Kb.

3

Jelas, ada satu set besar database publik.

Satu yang belum disebutkan, adalah dari FAO ( Organisasi Pangan dan Pertanian Perserikatan Bangsa-Bangsa), dapat diakses di:

http://www.fao.org/faostat/

Ini berisi data tentang produksi makanan untuk negara-negara di seluruh dunia.

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.