Saya menggunakan kata yang berbeda tergantung pada cara saya menggunakan data. Jika saya telah menemukan set-up dataset yang ada di sekitar dan telah menunjuk algoritma saya padanya dengan cara konfirmasi, maka kata "sintetis" baik-baik saja.
Namun, seringkali setiap kali saya menggunakan data jenis ini, saya telah menemukan data dengan maksud khusus untuk memamerkan kemampuan algoritma saya. Dengan kata lain, saya menemukan data untuk tujuan khusus mendapatkan "hasil yang baik". Dalam keadaan seperti itu, saya menyukai istilah "dibikin" bersama dengan penjelasan tentang harapan saya untuk data. Ini karena saya tidak ingin ada orang yang membuat kesalahan dengan berpikir bahwa saya menunjuk algoritma saya pada beberapa set data sintetik acak yang saya temukan tergeletak di sekitar dan itu benar-benar bekerja dengan baik. Jika saya memiliki data cherry-pick (sampai benar-benar mengada-ada) khusus untuk membuat algoritma saya bekerja dengan baik, saya katakan begitu. Ini karena hasil seperti itu memberikan bukti bahwa algoritma saya bisabekerja dengan baik, tetapi hanya memberikan bukti yang sangat lemah bahwa orang mungkin mengharapkan algoritma bekerja dengan baik secara umum . Kata "dibikin" benar-benar merangkum fakta bahwa saya telah memilih data dengan "hasil yang baik" dalam pikiran, apriori.
"Apakah itu memberi kesan data penipuan ?"
Tidak, tapi, penting untuk menjadi jelas tentang sumber dataset apapun dan Anda sebuah harapan apriori sebagai eksperimen ketika melaporkan hasil Anda pada dataset apapun. Istilah "penipuan" secara eksplisit mencakup aspek telah menutupi sesuatu atau telah langsung berbohong. Cara # 1 untuk menghindari komisi penipuan dalam sains adalah dengan bersikap jujur dan terus terang tentang sifat data Anda dan harapan Anda. Dengan kata lain, jika data Anda dibuat dan Anda gagal mengatakan banyak hal dengan cara apa pun , dan ada semacam harapan bahwa data tersebut tidak dibuat atau, lebih buruk lagi, Anda mengklaim bahwa data dikumpulkan dalam beberapa jenis yang tidak dibuat. dari jalan, maka itu adalah"penipuan". Jangan lakukan itu. Jika Anda ingin menggunakan beberapa sinonim untuk istilah "fabrikasi" yang "terdengar lebih baik", seperti "sintetis", tidak ada yang akan menyalahkan Anda, tetapi pada saat yang sama saya tidak berpikir bahwa ada orang yang akan melihat perbedaannya kecuali Anda.
Catatan tambahan:
Yang kurang jelas adalah keadaan di mana seseorang mengklaim memiliki harapan apriori yang sebenarnya merupakan penjelasan post hoc . Ini juga analisis penipuan data.
Ada bahaya ini ketika seseorang memilih data secara khusus dengan maksud "memamerkan" kemampuan suatu algoritma, yang sering terjadi dengan data sintetis.
DHHDD
HDHD . Jika Anda menguji suatu algoritma, misalnya, maka hipotesis bahwa algoritma baru mewah Anda "melakukan pekerjaan yang baik" mungkin terjadi sebelum penemuan dataset sintetik. Jika ini masalahnya, Anda harus menyebutkannya. Paling tidak Anda tidak boleh mengatakan bahwa peristiwa terjadi dengan cara "konfirmasi", karena itu akan membuat pembaca menyimpulkan bahwa bukti Anda lebih kuat daripada yang sebenarnya.
Tidak ada masalah dengan melakukan ini, selama Anda jujur dan terus terang tentang apa yang telah Anda lakukan. Jika Anda telah melalui rasa sakit untuk membuat dataset yang memberikan "hasil yang baik", katakan saja. Selama Anda membiarkan pembaca mengetahui langkah-langkah yang telah Anda ambil dalam analisis data Anda, mereka memiliki informasi yang diperlukan untuk secara efektif menimbang bukti untuk atau menentang hipotesis Anda. Ketika Anda tidak jujur atau tidak berterus terang , maka ini mungkin memberi kesan bahwa bukti Anda lebih kuat dari yang sebenarnya. Ketika Anda TAHU kurang dari jujur dan terus terang demi membuat bukti Anda tampak lebih kuat dari yang sebenarnya, maka itu, memang, penipuan.
Bagaimanapun, inilah mengapa saya lebih suka istilah "dibuat-buat" untuk dataset seperti itu, bersama dengan penjelasan singkat bahwa mereka memang dipilih dengan hipotesis dalam pikiran. "Contrived" menyampaikan pengertian bahwa saya tidak hanya membuat dataset sintetik, tetapi saya juga melakukannya dengan maksud tertentu yang mencerminkan fakta bahwa hipotesis saya sudah ada sebelum penciptaan dataset saya.
ADx.y (opsi 2), ketika, dalam kasus opsi 1, mereka tidak. Oleh karena itu, pembaca dalam opsi 1 telah diberi kesan bahwa bukti lebih kuat dari yang sebenarnya.
tl; dr
Gunakan istilah apa pun yang Anda suka, "sintetis", "dibuat-buat", "dibuat-buat", "fiktif". Namun, istilah yang Anda gunakan tidak cukup untuk memastikan bahwa hasil Anda tidak menyesatkan . Pastikan bahwa Anda jelas dalam laporan Anda tentang bagaimana data muncul, termasuk harapan Anda untuk data dan alasan mengapa Anda memilih data yang Anda pilih.