Bagaimana statistik diterapkan dalam ilmu komputer untuk mengevaluasi keakuratan dalam klaim penelitian?


8

Saya telah memperhatikan dalam kehidupan akademis saya yang pendek bahwa banyak makalah yang diterbitkan di daerah kami terkadang tidak memiliki banyak ketelitian mengenai statistik. Ini bukan hanya asumsi; Saya pernah mendengar profesor mengatakan hal yang sama.

Sebagai contoh, dalam disiplin ilmu CS saya melihat makalah yang diterbitkan mengklaim bahwa metodologi X telah diamati efektif dan ini dibuktikan oleh ANOVA dan ANCOVA, namun saya tidak melihat referensi untuk peneliti lain mengevaluasi bahwa kendala yang diperlukan telah diamati. Agak terasa seperti begitu beberapa 'fungsi dan nama kompleks' muncul, maka itu menunjukkan bahwa peneliti menggunakan beberapa metode dan pendekatan yang sangat kredibel bahwa 'dia harus tahu apa yang dia lakukan dan tidak apa-apa jika dia tidak menggambarkan kendala' , katakanlah, untuk distribusi atau pendekatan yang diberikan itu, sehingga masyarakat dapat mengevaluasinya.

Terkadang, ada alasan untuk membenarkan hipotesis dengan ukuran sampel yang kecil.

Pertanyaan saya di sini karena itu diajukan sebagai mahasiswa disiplin CS sebagai calon untuk belajar lebih banyak tentang statistik: Bagaimana ilmuwan komputer mendekati statistik?

Pertanyaan ini mungkin sepertinya saya bertanya apa yang sudah saya jelaskan, tapi itu pendapat saya . Saya mungkin salah, atau saya mungkin berfokus pada sekelompok praktisi sedangkan kelompok peneliti CS lainnya mungkin melakukan hal lain yang mengikuti praktik yang lebih baik sehubungan dengan kekakuan statistik.

Jadi secara spesifik, yang saya inginkan adalah "Area kami adalah statistik atau tidak karena fakta yang diberikan (makalah contoh, buku, atau artikel diskusi lain tentang ini baik-baik saja)". @Patrick jawaban lebih dekat dengan ini.


Tolong beri tahu saya jika jawaban saya tidak sesuai dengan yang Anda cari ... Saya dapat menemukan beberapa contoh, jika Anda mau, tetapi sepertinya Anda sudah memiliki banyak sendiri. Plus, kecuali Anda memiliki akses ke proses, mungkin sulit untuk menyajikan tautan ke surat kabar.
Patrick87

Saya memiliki akses ke perpustakaan digital IEEE dan ACM, contoh akan sangat disambut baik juga pada posting Anda, saya bisa menggunakannya, nanti ketika saya mendapatkan gelar PhD untuk menunjukkan kepada siswa saya akhirnya menasihati contoh yang baik dan buruk mengenai hal ini. Dan ya, ini adalah olahraga opini dan pernyataan yang saya cari.
Oeufcoque Penteano

Perhatikan bahwa sebagian besar ilmu komputer sama sekali tidak empiris dan karenanya (ab) tidak menggunakan statistik. Pada catatan snarky, orang rekayasa perangkat lunak "dikenal" untuk menulis banyak dan mengatakan sedikit (relevansi) Langkah pertama adalah mempelajari statistik; beberapa peneliti rekayasa perangkat lunak bercita-cita saya tahu pernah mengikuti kursus atau apa pun tentang statistik.
Raphael

Poin bagus. Saya terbiasa mendengarkan ini juga. Apa yang akan dipertimbangkan selanjutnya?
Oeufcoque Penteano

Jawaban:


11

Sebagai seorang mahasiswa pascasarjana dalam ilmu komputer, yang memiliki eksposur untuk penelitian di bidang selain ilmu komputer, dan yang kelompok penelitiannya bekerja di bidang ilmu komputer di mana statistik dapat diterapkan secara bermanfaat, saya dapat menawarkan pengalaman saya; jarak tempuh Anda dapat bervariasi.

Secara umum, bahkan penelitian ilmiah yang paling baik sekalipun dapat gagal menerapkan analisis statistik secara ketat pada hasil, dan menurut pengalaman saya hal ini tidak selalu menghalangi makalah termasuk hasil analisis yang kurang baik dari yang diterima untuk dipublikasikan. Area di mana grup saya beroperasi terutama dalam komputasi terdistribusi dan arsitektur komputer berkinerja tinggi. Seringkali, penelitian melibatkan desain eksperimental yang kinerjanya tidak mudah dipahami secara analitis dalam detail yang diperlukan. Dengan demikian, hasil empiris sering digunakan sebagai bukti untuk klaim.

Jelas, eksperimen harus dirancang - dan hasilnya dianalisis - sedemikian rupa untuk memberikan keyakinan bahwa hasilnya signifikan secara statistik. Sebagian besar waktu, ini tidak dilakukan, bahkan di beberapa tempat yang paling penting. Ketika analisis statistik diterapkan, hampir tidak pernah ketat dalam arti yang berarti; yang paling sering dilihat orang (dan orang senang melihatnya!) adalah bahwa percobaan diulangi sebanyak n kali, untuk beberapa n yang dipilih secara sewenang-wenang , di mana biasanya1<n<5. Pemilihan bar kesalahan (jika ada ditunjukkan) tampaknya terutama masalah preferensi atau selera pribadi.

Singkatnya, tidak, itu bukan hanya Anda; dan itu bukan hanya rekayasa perangkat lunak. Secara umum, berdasarkan pengalaman saya, beberapa bidang penelitian komputasi tampaknya keliru di sisi tidak cukup melakukan. Memang, itu mungkin bahkan merusak kelayakan makalah yang diserahkan untuk memikirkan pertimbangan statistik. Bukan untuk mengatakan bahwa saya merasa situasinya memuaskan; jauh dari itu. Tapi ini adalah kesan saya. Misalnya, Anda dapat melihat bagian 5 dari makalah ini, yang dipresentasikan di Supercomputing 2011, salah satu konferensi paling terkenal di bidang komputasi kinerja tinggi. Secara khusus, lihat beberapa pembahasan hasil di bagian 5, dan lihat apakah Anda sampai pada kesimpulan yang sama yang saya lakukan tentang kerasnya analisis statistik hasil eksperimen.

Secara lebih umum, kekurangan ini mungkin merupakan gejala dari suatu kondisi dalam beberapa bidang komputasi untuk menerbitkan lebih banyak makalah daripada lebih sedikit, untuk menargetkan konferensi daripada jurnal, dan untuk menekankan kemajuan tambahan daripada perbaikan yang signifikan dan mendasar dalam pemahaman. Anda dapat membaca artikel ini , yang memberikan wawasan berharga di sepanjang baris ini.


Terima kasih banyak atas pendapatnya. Saya senang melihat orang lain berpikir seperti ini. Saya berharap masyarakat memiliki pendapat lain untuk dibagikan juga atau paling tidak memilih untuk menyatakan pendapat. :) Sayang sekali di sini saya masih pemula jadi saya tidak bisa memilih apa pun.
Oeufcoque Penteano

@OeufcoquePenteano Hei, semua orang pemula ketika mereka mulai. Ini adalah pertanyaan yang bagus dan memunculkan poin menarik tentang kelemahan potensial dalam menghitung standar penelitian. Saya akan menambahkan jawabannya segera. Perhatikan juga bahwa pertanyaan ini dapat ditutup (lebih cepat daripada nanti, bahkan) oleh anggota lain, karena pertanyaan seperti ini (sejauh ini) telah dianggap dengan kecurigaan, dan karena situs ini masih dalam versi beta, komunitas masih berusaha untuk tentukan apa yang ada di dalam dan di luar topik di sini.
Patrick87

Tetapi proposal awal menyebutkan tentang ilmu komputer dan penelitian dan ini memenuhi kriteria ini kan? Pada titik ini tidak ada kriteria lain yang lebih halus yang akan mengeluarkan pertanyaan ini dari permainan, atau akan ada? Atau adakah keluarga tumpukan lain yang dapat saya diskusikan tentang pertanyaan ini? Terima kasih atas pujian dan perhatian Anda untuk membalasnya :)
Oeufcoque Penteano

1
Sedangkan untuk pembandingan implementasi bukti-konsep, saya berjuang untuk melihat bagaimana signifikansi dapat ditetapkan. Tampaknya tidak mungkin untuk menerapkan statistik di sini; mengambil pengukuran sendiri bukan statistik. Adalah penting bahwa pengukuran ditafsirkan dengan cermat dan dengan perspektif.
Raphael

4
@ Patrick87: Saya tidak ingin menganjurkan mengabaikan signifikansi statistik. Ini adalah keras, meskipun. Kebetulan, saya melakukan tolok ukur untuk tesis master saya. Saya menjalankan barang-barang saya (berkali-kali) pada dua hingga tiga mesin dan berhati-hati untuk mengukur waktu yang relevan. Apa lagi yang bisa saya lakukan? Saya bahkan tidak dapat mulai menggunakan statistik yang ketat karena saya tidak tahu apa model stokastik untuk eksekusi multi-core algoritma dengan JVM di tengahnya.
Raphael

2

Rekayasa perangkat lunak mencakup banyak fitur. Dua di antaranya adalah faktor manusia dan ukuran kualitas.

Katakanlah saya ingin melakukan analisis produktivitas. Pengumpulan data akan sulit dibandingkan dengan analisis algoritma karena data tentang produktivitas manusia. Juga ukuran obyektif kualitas tidak mudah dicapai.

10 baris kode per hari untuk sistem avionik versus 150 baris kode per hari untuk aplikasi di ponsel pintar, mana yang memiliki produktivitas lebih tinggi dan mana yang memiliki kualitas lebih baik? Dan jika keduanya mengklaim bahwa mereka menggunakan metodologi yang sama? Membandingkannya adalah membandingkan apel dan jeruk.

Terkadang sulit untuk mencapai ukuran efisiensi kode yang akurat. Sebagai contoh, saya memasukkan banyak variabel yang tidak berguna dan banyak baris kode untuk variabel-variabel tersebut, misalnya untuk tujuan debugging. Ini meningkatkan produktivitas saya pada tahap pengembangan. Pada akhirnya, saya menghapus semuanya dan saya katakan saya meningkatkan kode saya untuk mencapai efisiensi.

Kemudian, seorang peneliti datang dan melakukan analisis efisiensi. Dia mungkin memperlakukan hal di atas sebagai suara dan hanya berkonsentrasi pada hasil akhir. Beberapa peneliti memperhatikan kebisingan. Maka Anda akan melihat artikel dengan kesimpulan berbeda.

Statistik seharusnya menjadi alat untuk membantu para peneliti dalam menemukan penyebab masalah. Banyak peneliti menggunakannya untuk menarik kesimpulan. Inilah yang telah Anda amati.


Beberapa komentar di atas mungkin membuat OP berpikir bahwa saya menentang penggunaan statistik dalam rekayasa perangkat lunak. Jika demikian, saya ingin membuat diri saya jelas.

Saya tidak menentang statistik. Analisis statistik dapat memberi tahu Anda X mungkin benar. Tapi, itu seharusnya bukan akhir dari penelitian. Tugas selanjutnya adalah mencari tahu apakah X benar dan mengapa. Inilah yang saya yakini tentang sains - untuk menemukan kebenaran.

Apakah atau tidak rekayasa perangkat lunak milik ilmu komputer adalah masalah lain.


Halo terima kasih. Saya pikir Anda dapat mengomentari pertanyaan Anda sehingga ini harus bekerja. Maksud Anda, insinyur perangkat lunak hanya dapat diizinkan untuk menjadi lebih informal dalam hal statistik karena ketidakpastian? Saya tidak tahu Lihat, saya punya buku yang saya dapatkan dari seorang profesor yang mengajarkan statistik untuk peneliti sosial. Saya pikir pihak mereka jauh lebih buruk daripada pihak kita, dan mereka bahkan memiliki contoh yang jelas dalam sebuah buku untuk itu. Mengapa, kami, bahkan memiliki kode statis untuk mencoba pendekatan yang berbeda untuk itu tidak akan mampu?
Oeufcoque Penteano

Saya bertanya-tanya apakah ini kesenjangan yang biasanya saya dengar antara penelitian dan orang-orang yang benar-benar bekerja di industri. Saya setuju dengan Anda bahwa untuk sisi pengembang Anda tidak peduli dengan statistik, tetapi membuat programnya berjalan. Tapi, ya, manajer proyek akan membutuhkannya untuk memprediksi apakah pengembang akan terlambat atau tidak, mungkin? Masih mempertimbangkan bagian 'klaim penelitian' dari pertanyaan, apakah Anda yakin akurasi dalam statistik tidak akan berguna karena misalnya menyimpulkan bahwa beberapa hal yang dilakukan pengembang secara tidak sadar mengurangi produktivitas dan kesenangan dalam bekerja? Kekhawatiran saya ada di sana.
Oeufcoque Penteano

Maksud Anda melakukan penelitian eksperimental akan mempertimbangkan orang sebagai subjek? Saya berbicara tentang mengukur kode untuk memahami hal ini, bukan bereksperimen dengan orang-orang. Maaf, saya hanya bingung pernyataan terakhir Anda. Tapi, terima kasih atas wawasan Anda!
Oeufcoque Penteano

Baiklah, saya mengerti sekarang. Karena saya pemula dalam hal ini, saya tidak tahu bahwa diskusi panjang tentang komentar akan menjadi praktik yang buruk sehingga saya akan berhenti pada titik ini. Terima kasih atas pemaparan anda. Saya akan menunggu beberapa hari lagi dan memilih jawaban untuk itu (kalau-kalau pertanyaannya tidak cocok untuk komunitas ini dan ditutup).
Oeufcoque Penteano

Saya bertanya-tanya apakah Anda berbicara tentang statistik yang sama. Di masyarakat umum, "statistik" biasanya banyak pengukuran. Dalam matematika dan sains, "statistik" estimasi parameter model diberikan data / pengukuran. Oleh karena itu, daftar jumlah LOC bahkan bukan statistik dalam arti ilmiah; jika Anda dapat (secara akurat) memperkirakan parameter "konsumsi kopi pengembang rata-rata" dari data LOC, maka Anda melakukan statistik (relevan); Anda telah menemukan peristiwa yang berhubungan.
Raphael

1

Statistik sulit , dan seringkali kontra-intuitif. Selain itu, dorongan untuk "melakukan satu percobaan lagi" untuk melihat apakah ada efek (dan berhenti ketika itu muncul) kuat, khususnya jika eksperimen itu mahal (waktu, kerja, bukan hanya uang). Juga ingat bahwa menerbitkan makalah tentang bagaimana percobaan yang dibuat dengan hati-hati, panjang dan mahal tidak menunjukkan hubungan yang signifikan secara statistik.

Khususnya dalam rekayasa perangkat lunak ada banyak variabel yang tidak dapat dikendalikan. Untuk menjelaskannya, Anda akan memerlukan banyak ulangan percobaan, dan Anda mendapatkan sumber daya untuk melakukan satu atau dua yang terbaik.


-3

Pertanyaan saya di sini karena itu diajukan sebagai mahasiswa disiplin CS sebagai calon untuk belajar lebih banyak tentang statistik: Bagaimana ilmuwan komputer mendekati statistik?

ada beberapa pertanyaan di atas & beberapa tidak sama dengan pertanyaan judul & dalam beberapa hal pertanyaan ini memiliki premis / miskonsepsi yang salah tentang kurangnya koneksi antara statistik dan CS. pertanyaan umum adalah tentang antarmuka ilmu komputer dan statistik.

ada yang luas, mendekati tumpang tindih yang intens di beberapa daerah dan ini merupakan tren yang meningkat dengan bidang baru big data yang muncul . di beberapa sekolah (misalnya sekolah elit "Ivy League") gelar CS erat dengan departemen matematika dan statistik dan beberapa memiliki mata pelajaran bersama . ada interkoneksi yang sangat kuat di bidang CS / statistik Machine Learning . juga bidang bioinformatika yang relatif baru memiliki landasan statistik CS + yang sangat kuat.

ada seluruh bidang Statistik komputasi yang difokuskan pada antarmuka!

Statistik komputasi, atau komputasi statistik, adalah antarmuka antara statistik dan ilmu komputer. Ini adalah bidang ilmu komputasi (atau komputasi ilmiah) khusus untuk ilmu matematika statistik. Area ini juga berkembang pesat, yang mengarah pada panggilan bahwa konsep komputasi yang lebih luas harus diajarkan sebagai bagian dari pendidikan statistik umum. [1]

ya, setuju, sebagaimana ditunjukkan dalam pertanyaan, ada banyak makalah CS yang tidak menggunakan statistik, termasuk situasi (seperti mengevaluasi eksperimen empiris) di mana itu mungkin bahkan sangat berlaku & relevan, tetapi persis sama dapat dikatakan banyak lainnya bidang ilmiah, misalnya matematika, dan bahkan lebih banyak bidang terapan seperti fisika.

ada banyak cara untuk menggunakan / menerapkan statistik, beberapa kurang ketat daripada yang lain, dan tidak semua konteks membutuhkan aplikasi penuh dari aspek statistik yang sangat canggih. misalnya hanya menjalankan beberapa percobaan dan merencanakan bilah kesalahan untuk penyimpangan statistik (atau bahkan hanya rata - rata! ) adalah penggunaan dasar statistik. penggunaan yang lebih ketat termasuk pengujian hipotesis, tetapi ada pengamatan umum di lapangan bahwa banyak makalah ilmiah tidak melakukan pengujian hipotesis yang ketat bahkan di mana itu mungkin berlaku.

juga, pertanyaan ini ditandai dengan . ini adalah jurusan saya, dan kelas statistik diperlukan untuk lulus untuk menyelesaikan gelar ini di sekolah saya & untuk mendapatkan jurusan yang bersertifikat teknik (misalnya ABET ), ini mungkin terjadi di banyak universitas lain. jika seseorang menginginkan prinsip-prinsip tipe CS yang lebih terapan dan ketat seperti aplikasi statistik, seseorang dapat menempuh rute "rekayasa perangkat lunak" dalam pendidikan.


seperti yang ditunjukkan dalam komentar lain, penggunaan statistik bahkan dalam TCS yang lebih abstrak termasuk analisis kompleksitas kasus rata - rata dan pembelajaran PAC dll
vzn

1
Analisis kompleksitas kasus rata-rata tidak menggunakan statistik. Stochastics, tentu saja, tapi itu hal lain.
Raphael

sangat tidak setuju! itu jelas menggunakan konsep statistik kunci / fundamental tetapi mungkin tidak diajarkan bahwa itu benar! pandangan akademis bidang cenderung terkotak & tercermin di sini! karena setiap ref pada distribusi input, dll jelas merupakan doa konsep-konsep statistik ...
vzn
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.