Pertanyaan yang diberi tag «dataset»

Permintaan kumpulan data di luar topik di situs ini. Gunakan tag ini untuk pertanyaan tentang membuat, memproses, atau memelihara set data.


2
Menguji Klasifikasi pada Data Ketidakseimbangan yang Berlebihan
Saya sedang mengerjakan data yang sangat tidak seimbang. Dalam literatur, beberapa metode digunakan untuk menyeimbangkan kembali data menggunakan re-sampling (over-atau under-sampling). Dua pendekatan yang baik adalah: SMOTE: Tehnik Sintetis Minoritas Berlebih ( SMOTE ) ADASYN: Pendekatan Sampling Sintetis Adaptif untuk Pembelajaran Ketidakseimbangan ( ADASYN ) Saya telah menerapkan ADASYN karena …

2
Menghitung persentil ke-95: Membandingkan distribusi normal, R Quantile, dan pendekatan Excel
Saya mencoba menghitung persentil ke-95 pada dataset berikut. Saya menemukan beberapa referensi online untuk melakukannya. Pendekatan 1: Berdasarkan data sampel Yang pertama memberitahu saya untuk mendapatkan TOP 95 Percentdataset dan kemudian memilih MINatau AVGdari set yang dihasilkan. Melakukannya untuk dataset berikut memberi saya: AVG: 29162 MIN: 0 Pendekatan 2: Asumsikan …
17 r  dataset  quantiles  sql 

6
Di mana menemukan corpus teks besar? [Tutup]
Tutup. Pertanyaan ini di luar topik . Saat ini tidak menerima jawaban. Ingin meningkatkan pertanyaan ini? Perbarui pertanyaan sehingga sesuai topik untuk Cross Validated. Ditutup 6 tahun yang lalu . Saya mencari korpus teks besar (> 1000) untuk diunduh. Lebih disukai dengan berita dunia atau semacam laporan . Saya hanya …
16 dataset 

5
Apa dampak peningkatan data pelatihan terhadap akurasi sistem secara keseluruhan?
Dapatkah seseorang meringkas untuk saya dengan contoh yang mungkin, pada situasi apa meningkatkan data pelatihan meningkatkan sistem secara keseluruhan? Kapan kami mendeteksi bahwa menambahkan lebih banyak data pelatihan dapat membuat data terlalu berlebihan dan tidak memberikan akurasi yang baik pada data uji? Ini adalah pertanyaan yang sangat tidak spesifik, tetapi …


5
Apakah lebih baik melakukan analisis data eksplorasi hanya pada set data pelatihan?
Saya sedang melakukan analisis data eksplorasi (EDA) pada dataset. Kemudian saya akan memilih beberapa fitur untuk memprediksi variabel dependen. Pertanyaannya adalah: Apakah saya harus melakukan EDA hanya pada dataset pelatihan saya? Atau haruskah saya bergabung dengan pelatihan dan menguji kumpulan data kemudian melakukan EDA pada keduanya dan memilih fitur berdasarkan …

4
Hosting data minat publik gratis? [Tutup]
Tutup. Pertanyaan ini di luar topik . Saat ini tidak menerima jawaban. Ingin meningkatkan pertanyaan ini? Perbarui pertanyaan sehingga sesuai topik untuk Cross Validated. Ditutup 4 tahun yang lalu . Saya memiliki laporan suhu harian dan harian untuk banyak stasiun di http://data.barrycarter.info/ Saya mendorong orang untuk mengunduhnya, tetapi pada 6.6G, …
14 dataset 

3
Bagaimana cara melakukan augmentasi data dan memvalidasi train?
Saya melakukan klasifikasi gambar menggunakan pembelajaran mesin. Misalkan saya memiliki beberapa data pelatihan (gambar) dan akan membagi data menjadi set pelatihan dan validasi. Dan saya juga ingin menambah data (menghasilkan gambar baru dari yang asli) dengan rotasi acak dan injeksi noise. Augmentaion dilakukan secara offline. Mana cara yang benar untuk …

6
Cara cepat di R untuk mendapatkan baris pertama dari bingkai data yang dikelompokkan oleh pengidentifikasi [ditutup]
Tutup. Pertanyaan ini di luar topik . Saat ini tidak menerima jawaban. Ingin meningkatkan pertanyaan ini? Perbarui pertanyaan sehingga sesuai topik untuk Cross Validated. Ditutup 2 tahun yang lalu . Terkadang saya hanya perlu mendapatkan baris pertama dari kumpulan data yang dikelompokkan berdasarkan pengidentifikasi, seperti saat mengambil usia dan jenis …
14 r  dataset  aggregation  plyr 

2
Bagaimana kesesuaian k-fold cross sesuai dengan konteks pelatihan / validasi / pengujian set?
Pertanyaan utama saya adalah tentang mencoba memahami bagaimana k-fold cross-validation cocok dalam konteks memiliki pelatihan / validasi / pengujian set (jika cocok sama sekali dalam konteks seperti itu). Biasanya, orang berbicara tentang memecah data menjadi set pelatihan, validasi dan pengujian - katakan dengan rasio 60/20/20 per kursus Andrew Ng - …

4
Di mana menemukan data mentah tentang uji klinis? [Tutup]
Tutup. Pertanyaan ini di luar topik . Saat ini tidak menerima jawaban. Ingin meningkatkan pertanyaan ini? Perbarui pertanyaan sehingga sesuai topik untuk Cross Validated. Ditutup 2 tahun yang lalu . Saya ingin menggunakan data mentah tentang uji klinis untuk ujian akhir tahun mahasiswa master saya. Data-data ini dapat menangani segala …


4
Memisahkan dua populasi dari sampel
Saya mencoba memisahkan dua kelompok nilai dari satu set data. Saya dapat berasumsi bahwa salah satu populasi terdistribusi secara normal dan setidaknya setengah dari ukuran sampel. Nilai yang kedua sama-sama lebih rendah atau lebih tinggi dari nilai dari yang pertama (distribusi tidak diketahui). Yang saya coba lakukan adalah menemukan batas …

4
Cara terbaik untuk mengumpulkan dan menganalisis data
Baru-baru ini mulai mengajar diri saya sendiri Pembelajaran Mesin dan Analisis Data, saya mendapati diri saya membentur dinding bata pada kebutuhan untuk membuat dan menanyakan set data yang besar. Saya ingin mengambil data yang telah saya kumpulkan dalam kehidupan profesional dan pribadi saya dan menganalisisnya tetapi saya tidak yakin cara …

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.