Di mana orang bisa mendapatkan set data yang baik / masalah pengujian untuk algoritma / rutinitas pengujian?


41

Dalam mengevaluasi kualitas perangkat lunak yang akan Anda gunakan (apakah itu sesuatu yang Anda tulis atau paket kalengan) dalam pekerjaan komputasi, seringkali merupakan ide yang baik untuk melihat seberapa baik kerjanya pada set data standar atau masalah. Di mana orang bisa mendapatkan tes ini untuk memverifikasi rutinitas komputasi?

(Tolong, satu situs web / buku per jawaban.)


Saya bermaksud ini menjadi posting Wiki Komunitas, dan dengan demikian telah menandainya untuk konversi.
JM

3
bukankah pertanyaan ini terlalu luas, yaitu tergantung pada algoritme / sifat masalah yang digunakan untuk diselesaikan oleh perangkat lunak ini?
Andre Holzner

Saya benar-benar ingin pertanyaan ini menjadi komunitas wiki , @Andre (sebagai "daftar besar" sumber daya); Saya telah menandai untuk konversi, tetapi saya tidak tahu mengapa itu tidak dikonversi.
JM

@ JM Saya sudah mengkonversinya.
David Ketcheson

Jawaban:



13

Metode solusi yang diproduksi adalah standar untuk menguji PDE dan pemecah lainnya. Sebagian besar sistem aljabar simbolis memiliki fasilitas untuk menghasilkan kode, ini berguna untuk membuat solusi buatan. SymPy dan Maple memiliki kode fungsi, antara lain untuk tujuan ini.




8

Dalam komputasi elektromagnetisme, ada yang terkenal (atau terkenal karena kesulitan dalam beberapa) masalah tes: Pengujian Metode Analisis Elektromagnetik (TIM) .

Beberapa dari mereka benar-benar membutuhkan teknik numerik canggih untuk mendapatkan hasil simulasi yang benar selaras dengan data eksperimen. Misalnya, masalah konduktor-koil .

Seperangkat masalah pengujian untuk persamaan Maxwell dikompilasi oleh Dauge: Komputasi benchmark untuk persamaan Maxwell untuk perkiraan solusi yang sangat tunggal . Yang ada di kubus Fichera yang terkenal (atau terkenal):

fichera

ϕH1+ϵE=ϕ

Δu=0,where u=rαsin(αθ).

7

Jika Anda tertarik pada algoritma pembandingan yang terkait dengan struktur molekul, basis data pubchem memiliki banyak koleksi sebagian besar molekul organik. Ini mungkin berguna untuk membandingkan prediksi sifat molekuler yang diperoleh dengan model / program yang berbeda. Situs ini memiliki beberapa opsi untuk mengunduh sejumlah besar molekul yang memenuhi beberapa kriteria yang telah ditentukan (misalnya komposisi kimia).



7

Situs web CUTEr memperbarui set uji CUTE yang disebutkan di situs web Arnold Neumaier dengan beberapa masalah tambahan untuk pengoptimalan dan pemecah linear. Selain itu, ia menyediakan alat perangkat lunak untuk pengujian dan pembaruan aljabar linier dan pemecah optimasi.







3

Alan Genz mengusulkan serangkaian fungsi dalam makalah Pengujian rutinitas integrasi multidimensi . Saya tidak dapat menemukan versi online makalah ini, tetapi referensi untuknya dapat ditemukan di makalah tentang perpustakaan CUBA .




2

Jika Anda mencari grafik besar atau data jaringan untuk diuji. The Analisis Stanford Jaringan Project (SNAP) memiliki banyak dataset grafik besar biasanya dalam bentuk daftar adjacency anonim. Beberapa opsi mereka termasuk:

Data

Properti Data

  • Jumlah ujung: di mana saja dari ~ 10 hingga ~ 400 juta
  • Jumlah node: di mana saja dari ~ 10 hingga ~ 100 juta
  • Jenis tepi: diarahkan, tidak diarahkan, tertimbang, tidak berbobot, ditandatangani, dan tidak ditandatangani.
  • Jenis jaringan: terarah, tidak terarah, bipartit, multigraf, temporal, berlabel.

Statistik kebenaran dasar tersedia di dataset:

Alat


@ JM tidak masalah! Saya menggunakan beberapa set data jejaring sosial mereka beberapa waktu yang lalu untuk sebuah proyek dan kemudian menemukan tumpukan pertukaran ini dan berpikir mungkin akan membantu di sini.
ryan

-3

Data mudah; API untuk mendapatkannya bisa jadi sulit. Saya merekomendasikan Quandl . Situs ini memiliki lebih dari 10 juta set data yang tersedia untuk umum yang dapat diakses melalui satu API yang mudah, REST-ful. Semua data dikembalikan dalam CSV atau JSON. Atau, jika pemrograman tidak sesuai dengan keinginan Anda, ada cara mudah untuk memasukkan data ke Excel. Pemrogram R, Python, dan Ruby akan langsung di rumah dengan pustaka asli.


1
Selamat datang di Scicomp! Saya tidak berpikir ini adalah jenis data pertanyaannya; untuk menguji algoritma, Anda tidak hanya membutuhkan kumpulan data, tetapi juga hasil yang diketahui (tergantung pada masalah / algoritma) untuk membandingkan hasil Anda.
Christian Clason

Terima kasih, @ChristianClason. Saya mengerti apa yang kamu maksud. Misalnya jika perangkat lunak untuk regresi linier, penulis tertarik pada set data serta set hasil analisis yang diperiksa untuk menguji apakah paket regresi linier berkinerja dengan benar.
Brian Risk
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.