Analisis jaringan dataset klasik


10

Ada beberapa dataset klasik untuk tugas klasifikasi / regresi pembelajaran mesin. Yang paling populer adalah:

Tetapi apakah ada yang tahu dataset serupa untuk analisis jaringan / teori grafik? Lebih konkret - Saya mencari dataset standar Gold untuk membandingkan / mengevaluasi / belajar:

  1. langkah-langkah sentralitas;
  2. algoritma pengelompokan jaringan.

Saya tidak memerlukan daftar jaringan / grafik yang tersedia untuk umum, tetapi beberapa set data yang benar-benar harus diketahui.

EDIT:

Cukup sulit untuk menyediakan fitur yang tepat untuk "set data standar emas", tetapi berikut adalah beberapa pemikiran. Saya pikir, dataset klasik nyata harus memenuhi kriteria ini:

  • Referensi berganda dalam artikel dan buku teks;
  • Inklusi dalam paket perangkat lunak analisis jaringan yang terkenal;
  • Waktu keberadaan yang memadai;
  • Penggunaan dalam sejumlah kursus tentang analisis grafik.

Mengenai bidang minat saya, saya juga perlu kelas berlabel untuk simpul dan / atau "skor otoritas" yang sudah ditentukan sebelumnya (yaitu perkiraan sentralitas). Setelah mengajukan pertanyaan ini, saya terus mencari, dan berikut adalah beberapa contoh yang cocok:

  • Zachary's Karate Club : diperkenalkan pada tahun 1977, dikutip lebih dari 1,5 ribu kali (menurut Google Cendekia), vertex memiliki atribut Faction (yang dapat digunakan untuk pengelompokan).
  • Jaringan Kolaborasi Erdos : sayangnya, saya belum menemukan jaringan ini dalam bentuk data-file, tetapi ini agak terkenal, dan jika seseorang akan memperkaya jaringan dengan data spesialisasi matematikawan, itu juga dapat digunakan untuk menguji algoritma pengelompokan.

1
Saya pikir Anda bisa meningkatkan pertanyaan ini dengan mendefinisikan "dataset standar emas" dengan cara yang lebih objektif. Apa yang membuatnya "harus-tahu"? Haruskah direferensikan dalam sejumlah buku teks? Digunakan di sejumlah model yang diterbitkan? Dll. Kalau tidak, jawabannya akan subyektif DAN mereka akan berubah seiring waktu. Kombinasi yang buruk di sini.
Air

Jawaban:


5

Apa yang Anda cari dapat ditemukan di KONECT (situs web sedang down saat saya menulis ini tetapi harus segera diperbaiki!). Ini hampir pengumpulan data yang paling komprehensif untuk analisis jaringan. Tetapi pertanyaannya adalah mana yang lebih standar untuk digunakan?

Yah, tidak ada jawaban yang jelas kecuali dari Karate Club Zachary!

Jika Anda melakukan tinjauan literatur dalam algoritme Deteksi Komunitas Anda akan melihat bahwa hampir semua makalah yang bersinar menggunakan jaringan yang berbeda. Saran saya akan melakukan apa yang Andrea Lancichinetti dan Santo Fortunato lakukan untuk pembandingan grafik. Mereka mengusulkan beberapa algoritma pembuatan grafik benchmark misalnya yang ini .

Semoga bermanfaat :)


Anda dapat menemukan ini melalui mesin wayback, ini adalah
albert


1

Satu-satunya hal yang saya ketahui adalah data benchmark untuk Graph Databases, seperti Neo4j.

Anda dapat menemukan tautan yang mirip dengan ini: http://istc-bigdata.org/index.php/benchmarking-graph-databases/

di mana Anda dapat menemukan data untuk menguji analisis jaringan dan teori grafik.

Selanjutnya, Anda bisa bermain dengan API Twitter / Facebook untuk mengumpulkan data Anda sendiri. Ini juga merupakan saran jika Anda tidak menemukan data yang Anda cari.


Terima kasih, tapi bukan itu yang saya cari. Lihat pembaruan untuk detail lebih lanjut.
sobach
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.