Alat untuk menghasilkan dataset data uji yang besar [ditutup]


25

Sering kali ketika mencoba membuat desain basis data yang efisien, tindakan terbaik adalah membangun dua basis data sampel, mengisinya dengan data, dan menjalankan beberapa pertanyaan terhadap mereka untuk melihat mana yang berkinerja lebih baik.

Apakah ada alat yang akan menghasilkan (idealnya langsung ke database) besar (~ 10.000 catatan) set data uji yang relatif cepat? Saya mencari sesuatu yang setidaknya berfungsi dengan MySQL.

Jawaban:


12

Alat terbaik (jika Anda bisa menemukannya) adalah DataFactory. (Sayangnya tidak dicetak). Saya telah menghasilkan dataset yang benar-benar menyenangkan (dan terlihat sangat asli) darinya.

Generatedata.com adalah ... dapat diterima, tetapi skalanya tidak terlalu baik.

DataGenerator adalah sesuatu yang harus diperhatikan .

Dan sementara DTM Data Generator adalah kikuk dan pengganti DataFactory yang buruk, itu ada dan sedang dijual, dan saya telah menggunakannya untuk menghasilkan data yang dapat diterima.



4

Saya biasanya menghasilkan data saya sendiri, menggunakan beberapa data yang dikenal sebagai input - jika terlalu acak, itu tidak selalu merupakan tes yang baik; Saya membutuhkan data yang akan didistribusikan mirip dengan produk akhir saya.

Semua database yang lebih besar yang harus saya sempurnakan bersifat ilmiah - jadi saya biasanya dapat mengambil beberapa investigasi lain sebagai input, dan mengubah skala dan menambahkan jitter. (misalnya, mengambil data yang berada pada irama 5 menit dengan ketepatan milidetik, dan mengubahnya menjadi irama 10 detik dengan ketepatan milidetik tetapi jitter +/- 100 ms sesuai waktu)

...

Tetapi, sebagai alternatif lain, jika Anda tidak ingin menulis sendiri, adalah dengan melihat beberapa alat benchmarking - karena mereka dapat mengulangi hal-hal berulang-ulang berdasarkan pada set pelatihan, Anda dapat menggunakannya untuk memasukkan banyak catatan (dan kemudian abaikan saja laporan tentang seberapa cepat itu melakukannya) ... dan kemudian Anda dapat menggunakan alat yang sama untuk menguji seberapa cepat kinerja database setelah itu diisi.


3

Saya telah menggunakan mysqlslap. Itu membersihkan setelah dirinya sendiri juga.

Inilah artikel yang saya baca ketika saya mulai menggunakannya.




1

Cara yang paling hemat biaya mungkin menggunakan sumber terbuka atau generator data komersial. Saya biasa melakukan itu.

Sekarang, di tahun-tahun emas saya, saya menganggap setiap kebutuhan akan data uji sebagai mandat untuk mempelajari bahasa skrip lain.


Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.