Dataset / API jaringan sosial yang tersedia untuk umum


26

Sebagai ekstensi ke daftar hebat kumpulan data kami yang tersedia untuk umum , saya ingin tahu apakah ada daftar dataset jaringan sosial / API perayapan yang tersedia untuk umum. Akan sangat baik jika bersama dengan tautan ke dataset / API, karakteristik data yang tersedia ditambahkan. Informasi tersebut harus, dan tidak terbatas pada:

  • nama jejaring sosial;
  • informasi pengguna seperti apa yang disediakannya (pos, profil, jaringan pertemanan, ...);
  • apakah itu memungkinkan untuk merayapi isinya melalui API (dan tingkat: 10 / mnt, 1 k / bulan, ...);
  • apakah itu hanya menyediakan snapshot dari seluruh dataset.

Setiap saran dan karakteristik lebih lanjut yang akan ditambahkan sangat disambut.

Jawaban:


20

Beberapa kata tentang API jejaring sosial. Sekitar setahun yang lalu saya menulis ulasan tentang API jejaring sosial populer untuk para peneliti. Sayangnya, itu dalam bahasa Rusia. Berikut ini ringkasannya:

Twitter ( https://dev.twitter.com/docs/api/1.1 )

  • hampir semua data tentang tweet / teks dan pengguna tersedia;
  • kurangnya data sosiodemografi;
  • API streaming hebat: berguna untuk pemrosesan teks waktu nyata;
  • banyak pembungkus untuk bahasa pemrograman;
  • mendapatkan struktur jaringan (koneksi) dimungkinkan, tetapi mahal waktu (1 permintaan per 1 menit).

Facebook ( https://developers.facebook.com/docs/reference/api/ )

  • batas tarif: sekitar 1 permintaan per detik;
  • didokumentasikan dengan baik, kotak pasir hadir;
  • API Grafik FQL (seperti SQL) dan «Istirahat reguler»;
  • data pertemanan dan fitur sosiodemografi hadir;
  • banyak data yang berada di luar cakrawala acara : hanya data teman dan teman dari data teman yang kurang lebih lengkap, hampir tidak ada yang bisa diselidiki tentang pengguna acak;
  • beberapa bug API aneh, dan sepertinya tidak ada yang peduli tentang hal itu (misalnya, beberapa fitur tersedia melalui FQL, tetapi tidak melalui sinonim Graph API).

Instagram ( http://instagram.com/developer/ )

  • batas tarif: 5000 permintaan per jam;
  • API waktu nyata (seperti Streaming API untuk Twitter, tetapi dengan foto) - koneksi ke sana agak rumit: digunakan callback;
  • kurangnya data sosiodemografi;
  • foto, saring data yang tersedia;
  • ketidaksempurnaan yang tidak terduga (misalnya, hanya mungkin mengumpulkan 150 komentar untuk dikirim / foto).

Foursquare ( https://developer.foursquare.com/overview/ )

  • batas tarif: 5000 permintaan per jam;
  • kerajaan data geososial :)
  • cukup tertutup dari penelitian karena masalah privasi. Untuk mengumpulkan data checkin, orang perlu membuat parser komposit yang bekerja dengan 4sq, bit.ly, dan API twitter sekaligus;
  • lagi: kurangnya data sosiodemografi.

Google+ ( https://developers.google.com/+/api/latest/ )

  • sekitar 5 permintaan per detik (coba verifikasi);
  • metode utama: kegiatan dan orang;
  • seperti di Facebook, banyak data pribadi untuk pengguna acak disembunyikan;
  • kurangnya data koneksi pengguna.

Dan di luar kompetisi: Saya mengulas jejaring sosial untuk pembaca Rusia, dan jaringan # 1 di sini adalah vk.com . Ini diterjemahkan ke banyak bahasa, tetapi populer hanya di Rusia dan negara-negara CIS lainnya. Tautan dokumen API: http://vk.com/dev/ . Dan dari sudut pandang saya, ini adalah pilihan terbaik untuk penelitian media sosial rumahan. Setidaknya, di Rusia. Itu sebabnya:

  • batas tarif: 3 permintaan per detik;
  • teks publik dan data media tersedia;
  • data sosiodemografi tersedia: untuk tingkat ketersediaan pengguna acak adalah sekitar 60-70%;
  • koneksi antar pengguna juga tersedia: hampir semua data pertemanan untuk pengguna acak tersedia;
  • beberapa metode khusus: misalnya, ada metode untuk mendapatkan status online / offline untuk pengguna yang tepat secara realtime, dan orang dapat membuat jadwal untuk audiensnya.

1
Keangkeran belaka! Saya benar-benar mengharapkan sesuatu seperti ini larut dalam banyak jawaban, dan Anda datang membawa semuanya: D Terima kasih atas jawabannya. Pekerjaan yang baik! :)
Rubens

1
Saya meninggalkan ruang lingkup LinkedIn, YouTube, Secret. Mungkin jaringan regional lain (QQ?). Dan akan senang mendapatkan info tentang mereka.
sobach


6

Daftar dataset jaringan sosial yang tersedia untuk umum dapat ditemukan di situs web Stanford Network Analysis Project:

Kumpulan data SNAP

Situs ini berisi data jaringan sosial internet (Facebook, Twitter, Google Plus), jaringan Citation untuk jurnal akademik, jaringan pembelian bersama dari Amazon dan beberapa jenis jaringan lainnya. Mereka telah mengarahkan, tidak diarahkan, dan grafik bipartit dan semua dataset adalah snapshot yang dapat diunduh dalam bentuk terkompresi.


5

Contoh dari Jerman: Xing situs yang mirip dengan linkedin tetapi terbatas pada negara berbahasa Jerman.

Tautan ke pusat pengembangnya: https://dev.xing.com/overview

Menyediakan akses ke: Profil pengguna, Percakapan antara pengguna (terbatas pada pengguna itu sendiri), Iklan pekerjaan, Kontak dan Kontak Kontak, berita dari jaringan dan beberapa api geolokasi.

Ya itu memiliki api, tetapi saya tidak menemukan informasi tentang tarif. Tetapi menurut saya, beberapa informasi terbatas pada persetujuan pengguna.


4

Network Repository ( http://networkrepository.com ) memiliki banyak jejaring sosial, grafik web, jaringan bio dan otak, dll. Yang terbaik, mereka juga memiliki alat analitik visual interaktif untuk membandingkan / menjelajahi berbagai jejaring sosial.


2

Kumpulan kecil tautan semacam itu dapat ditemukan di sini . Banyak dari mereka adalah grafik sosial.


Saya sangat berterima kasih atas kiriman referensi ini, tetapi saya mengharapkan jawaban di sini untuk menunjukkan dataset / API yang tersedia untuk umum untuk jejaring sosial, dan juga menjelaskan apa yang disediakan oleh sumber tersebut (baik tingkat unduhan posting, atau informasi seperti apa) tentang pengguna). Karena jawaban Anda adalah, saya kira itu akan sangat diterima dengan daftar dataset yang tersedia untuk umum yang kami miliki.
Rubens

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.