Masalah dengan diskusi Anda dengan profesor adalah salah satu terminologi, ada kesalahpahaman yang menghalangi cara menyampaikan ide yang berpotensi berguna. Di tempat yang berbeda, Anda berdua membuat kesalahan.
Jadi hal pertama yang harus diatasi: penting untuk cukup jelas tentang apa distribusi .
Distribusi normal adalah objek matematika tertentu, yang dapat Anda pertimbangkan sebagai model untuk populasi nilai yang tak terbatas. (Tidak ada populasi terbatas yang benar-benar dapat memiliki distribusi berkelanjutan.)
Secara longgar, apa yang dilakukan distribusi ini (setelah Anda menentukan parameter) adalah mendefinisikan (melalui ekspresi aljabar) proporsi nilai populasi yang terletak di dalam interval tertentu pada garis nyata. Sedikit kurang longgar, itu mendefinisikan probabilitas bahwa nilai tunggal dari populasi itu akan terletak pada interval tertentu.
Sampel yang diamati tidak benar-benar memiliki distribusi normal; sampel mungkin (berpotensi) diambil dari distribusi normal, jika ada. Jika Anda melihat cdf empiris sampel, itu diskrit. Jika Anda membuangnya (seperti dalam histogram) sampel memiliki "distribusi frekuensi", tetapi itu bukan distribusi normal. Distribusi dapat memberi tahu kita beberapa hal (dalam arti probabilistik) tentang sampel acak dari populasi, dan sampel juga dapat memberi tahu kita beberapa hal tentang populasi.
Interpretasi yang masuk akal dari frasa seperti "sampel yang terdistribusi normal" * adalah "sampel acak dari populasi yang berdistribusi normal".
* (Saya biasanya mencoba untuk tidak mengatakannya sendiri, untuk alasan yang diharapkan cukup jelas di sini; biasanya saya berhasil membatasi diri pada jenis ekspresi kedua.)
Setelah mendefinisikan istilah (jika masih sedikit longgar), mari kita lihat pertanyaan secara rinci. Saya akan membahas bagian spesifik dari pertanyaan.
distribusi normal seseorang harus memiliki mean = median = mode
Ini tentu saja merupakan kondisi pada distribusi probabilitas normal, meskipun bukan persyaratan pada sampel yang diambil dari distribusi normal; sampel mungkin asimetris, mungkin memiliki perbedaan rata-rata dari median dan sebagainya. [Namun, kita bisa mendapatkan gambaran seberapa jauh jarak yang kita harapkan dari mereka jika sampel benar-benar berasal dari populasi normal.]
semua data harus terkandung di bawah kurva lonceng
Saya tidak yakin apa artinya "terkandung di bawah" dalam arti ini.
dan simetris sempurna di sekitar mean.
Tidak; Anda berbicara tentang data di sini, dan sampel dari populasi normal (pasti simetris) tidak dengan sendirinya simetris sempurna.
Oleh karena itu, secara teknis, hampir tidak ada distribusi normal dalam studi nyata,
Saya setuju dengan kesimpulan Anda tetapi alasannya tidak benar; itu bukan konsekuensi dari fakta bahwa data tidak simetris sempurna (dll); itu fakta bahwa populasi itu sendiri tidak sepenuhnya normal .
jika condong / kurtosis kurang dari 1.0 itu adalah distribusi normal
Jika dia mengatakan ini dengan cara seperti itu, dia pasti salah.
Kemiringan sampel mungkin jauh lebih dekat dengan 0 daripada itu (mengambil "kurang dari" berarti dalam besaran absolut bukan nilai sebenarnya), dan kurtosis kelebihan sampel juga mungkin jauh lebih dekat dengan 0 dari itu (mereka mungkin bahkan, apakah secara kebetulan atau konstruksi, berpotensi hampir nol), namun distribusi dari mana sampel diambil dengan mudah dapat menjadi tidak normal.
Kita bisa melangkah lebih jauh - bahkan jika kita secara ajaib mengetahui kecondongan populasi dan kurtosis adalah normal, itu masih tidak dengan sendirinya memberi tahu kita bahwa populasinya normal, atau bahkan sesuatu yang mendekati normal.
Dataset adalah jumlah total jatuh / tahun dalam pengambilan sampel acak dari 52 panti jompo yang merupakan sampel acak dari populasi yang lebih besar.
Distribusi jumlah penduduk tidak pernah normal. Hitungannya diskrit dan non-negatif, distribusi normal kontinu dan di seluruh garis nyata.
Tapi kami benar-benar fokus pada masalah yang salah di sini. Model probabilitas hanya itu, model . Jangan sampai kita membingungkan model kita dengan yang asli .
Masalahnya bukan "apakah data itu sendiri normal?" (tidak mungkin), bahkan "apakah populasi dari mana data diambil normal?" (Ini hampir tidak akan terjadi).
Pertanyaan yang lebih berguna untuk didiskusikan adalah "seberapa buruk kesimpulan saya akan terpengaruh jika saya memperlakukan populasi dengan distribusi normal?"
Ini juga pertanyaan yang jauh lebih sulit untuk dijawab dengan baik, dan mungkin membutuhkan kerja lebih banyak daripada melirik beberapa diagnosa sederhana.
Statistik sampel yang Anda tunjukkan tidak terlalu konsisten dengan normalitas (Anda bisa melihat statistik seperti itu atau "lebih buruk" tidak terlalu jarang jika Anda memiliki sampel acak sebesar itu dari populasi normal), tetapi itu tidak dengan sendirinya berarti bahwa populasi aktual dari mana sampel diambil secara otomatis "cukup dekat" ke normal untuk beberapa tujuan tertentu. Penting untuk mempertimbangkan tujuan (pertanyaan apa yang Anda jawab), dan kekokohan metode yang digunakan untuk itu, dan bahkan kemudian kita mungkin masih tidak yakin bahwa itu "cukup baik"; kadang-kadang mungkin lebih baik untuk tidak mengasumsikan apa yang kita tidak punya alasan bagus untuk menganggap apriori (misalnya berdasarkan pengalaman dengan set data yang serupa).
ini BUKAN distribusi normal
Data - bahkan data yang diambil dari populasi normal - tidak pernah memiliki sifat populasi yang tepat; dari angka-angka itu saja Anda tidak memiliki dasar yang baik untuk menyimpulkan bahwa populasi di sini tidak normal.
Di sisi lain kita juga tidak memiliki dasar yang cukup kuat untuk mengatakan bahwa itu "cukup dekat" dengan normal - kita bahkan belum mempertimbangkan tujuan dari asumsi normalitas, jadi kita tidak tahu fitur distribusi apa yang sensitif.
Misalnya, jika saya memiliki dua sampel untuk pengukuran yang dibatasi, yang saya tahu tidak akan terlalu terpisah (tidak hanya mengambil beberapa nilai yang berbeda) dan cukup dekat dengan simetris, saya mungkin relatif senang menggunakan dua sampel uji-t pada ukuran sampel yang tidak terlalu kecil; itu cukup kuat untuk penyimpangan ringan dari asumsi (agak tingkat-kuat, tidak begitu kuat). Tapi saya akan jauh lebih berhati-hati dengan asumsi normalitas normal ketika menguji kesetaraan penyebaran, misalnya, karena tes terbaik berdasarkan asumsi itu cukup sensitif terhadap asumsi.
Karena keduanya berada di antara nilai kritis -1 dan +1, data ini dianggap terdistribusi normal. "
Jika itu benar-benar kriteria dimana seseorang memutuskan untuk menggunakan model distribusi normal, maka itu kadang-kadang akan membawa Anda ke dalam analisis yang sangat buruk.
Nilai-nilai statistik itu memberi kita beberapa petunjuk tentang populasi dari mana sampel diambil, tetapi itu sama sekali tidak sama dengan menyarankan bahwa nilai-nilai mereka dengan cara apa pun merupakan 'panduan aman' untuk memilih analisis.
Sekarang untuk mengatasi masalah mendasar dengan versi yang lebih baik dari pertanyaan seperti yang Anda miliki:
Seluruh proses melihat sampel untuk memilih model penuh dengan masalah - melakukan hal itu mengubah sifat-sifat dari setiap pilihan analisis selanjutnya berdasarkan pada apa yang Anda lihat! misalnya untuk uji hipotesis, tingkat signifikansi Anda, nilai-p dan kekuatan semua tidak seperti yang Anda pilih / hitung , karena perhitungan tersebut didasarkan pada analisis yang tidak didasarkan pada data.
Lihat, misalnya Gelman dan Loken (2014), " Krisis Statistik dalam Sains ," American Scientist , Volume 102, Number 6, p 460 (DOI: 10.1511 / 2014.111.460) yang membahas masalah dengan analisis yang bergantung pada data tersebut.