Apakah itu hanya agregasi poin data? Atau itu representasi titik data untuk elemen yang berbeda dalam format tabel yang disusun dengan nilai-nilai variabel yang berbeda? Apa bedanya dengan data mentah?
Apakah itu hanya agregasi poin data? Atau itu representasi titik data untuk elemen yang berbeda dalam format tabel yang disusun dengan nilai-nilai variabel yang berbeda? Apa bedanya dengan data mentah?
Jawaban:
Dalam pengalaman saya, "dataset" (atau "kumpulan data") adalah istilah informal yang merujuk pada kumpulan data. Secara umum dataset berisi lebih dari satu variabel dan menyangkut satu topik; itu mungkin menyangkut satu sampel.
Kesalahan yang sering saya lihat pada penulis pertanyaan Cross Validated adalah menggunakan "dataset" sebagai sinonim untuk "variabel" atau "vektor".
Saya pikir Wikipedia melakukan pekerjaan yang layak dalam mendefinisikannya:
Paling umum satu set data sesuai dengan isi tabel database tunggal, atau matriks data statistik tunggal, di mana setiap kolom tabel mewakili variabel tertentu, dan setiap baris sesuai dengan anggota tertentu dari set data yang dipertanyakan. Kumpulan data mencantumkan nilai untuk setiap variabel, seperti tinggi dan berat objek, untuk setiap anggota kumpulan data. Setiap nilai dikenal sebagai datum. Kumpulan data dapat terdiri dari data untuk satu atau lebih anggota, sesuai dengan jumlah baris.
Kumpulan data istilah juga dapat digunakan lebih longgar, untuk merujuk ke data dalam kumpulan tabel terkait erat, yang sesuai dengan eksperimen atau acara tertentu. Contoh dari jenis ini adalah kumpulan data yang dikumpulkan oleh lembaga ruang angkasa yang melakukan eksperimen dengan instrumen di atas pesawat ruang angkasa.
Dalam disiplin data terbuka, dataset adalah unit untuk mengukur informasi yang dirilis dalam repositori data terbuka publik. Portal Data Terbuka Eropa mengumpulkan lebih dari setengah juta kumpulan data. Dalam bidang ini definisi lain telah diusulkan tetapi saat ini tidak ada definisi resmi. Beberapa masalah lain (sumber data real-time, dataset non-relasional, dll.) Meningkatkan kesulitan untuk mencapai konsensus tentang hal itu.
Seperti yang Anda lihat, istilahnya agak kabur.
Saya pikir Anda mungkin perlu mendefinisikan titik data sebelum Anda dapat menetapkan kumpulan data : mengapa satu primitif dan tidak memerlukan definisi, tetapi tidak sebaliknya?
Setidaknya dua definisi masuk akal bagi saya:
Satu atau lebih pengamatan (kasus, catatan, baris) untuk satu atau lebih variabel (bidang. Kolom).
Apa pun yang disimpan sebagai data dalam file yang dapat dibaca oleh program pilihan.
Layout tabular adalah umum tetapi saya tidak berpikir itu bagian dari definisi apa pun; bagaimana data disimpan bisa secara praktis penting, secara alami.
PS Kata "format" sangat kelebihan sehingga bagi saya sebaiknya dihindari kecuali ditentukan secara jelas. Saya pernah melihatnya digunakan untuk
Format file teks atau biner umum atau spesifik
Struktur data, misalnya tabular atau lainnya
Penyimpanan data atau tipe variabel, mis. Bit, integer, real, karakter
Menampilkan format yang mengendalikan presentasi, misalnya detail jumlah tempat desimal; tampilan desimal, heksadesimal atau biner.
Sudah ada beberapa jawaban yang baik di sini dan saya tidak berpikir saya bisa menembus lebih dalam daripada Nick Cox atau Franck Dernoncourt masalah apakah "dataset" mengacu pada pengumpulan konseptual dari data terkait, atau ke pengaturan tertentu dari data tersebut misalnya ke dalam tabel / matriks atau file yang dapat dibaca komputer. Ekstrak Franck menyebutkan kasus tepi seperti data yang dikumpulkan secara terus-menerus, atau data yang tersebar di beberapa tabel, yang perlu diingat jika Anda mengasumsikan akan ada definisi sederhana. (Tidak semua perangkat lunak statistik dapat mengatasinya, tetapi sangat mudah untuk membayangkan kasus di mana data disimpan dalam basis data relasional dengan beberapa tabel. Apakah seluruh basis data satu "dataset"?)
Satu hal yang saya akan tambahkan adalah bahwa set data tidak secara umum ditetapkan, dalam arti matematis! Sensu stricto baik satu set berisi objek atau tidak, tetapi tidak dapat berisi lebih dari satu salinan objek itu. Jika saya melempar dadu delapan kali dan skor 1, 4, 3, 5, 5, 4, 6, 4 maka himpunan skor digulung hanya {1, 3, 4, 5, 6}. Perhatikan bahwa unsur-unsurnya bisa dalam urutan apa pun, saya baru saja menuliskannya nilainya naik tetapi himpunan {5, 4, 1, 6, 3} secara matematis sama dengan itu, misalnya. Ini bukan apa yang biasanya kita maksudkan dengan dataset!
Tetapi vektor hanya untuk merekam satu variabel - untuk beberapa variabel, mungkin lebih nyaman menggunakan matriks untuk ditabulasi dengan urutan terpelihara. Untuk situasi yang lebih canggih seperti mengukur properti dari grid tiga dimensi voxel dari waktu ke waktu, Anda bahkan mungkin naik untuk mengatur data dalam tensor (lihat misalnya pertanyaan ini ).
Tetapi perhatikan bahwa secara konseptual sebuah multiset mungkin cukup dalam situasi yang paling sederhana, bahkan jika itu tidak praktis untuk tujuan praktis. Jika saya melempar koin bersamaan dengan menggulirkan dadu, dan ingin merekam dua hasil bersama, maka saya bisa menggunakan multiset seperti {(1, H), (3, T), (4, H), (4, H), (4, H ), (4, T), (5, H), (5, T), (6, T)} bukan matriks. Set biasa tidak akan cukup, karena tidak akan menghitung banyaknya (4, H), misalnya.