"Apakah ada kata yang lebih baik untuk distribusi itu?"
Ada perbedaan yang bermanfaat di sini antara menggunakan kata-kata untuk menggambarkan sifat - sifat distribusi, dibandingkan mencoba menemukan "nama" untuk distribusi sehingga Anda dapat mengidentifikasinya sebagai (kurang-lebih) contoh dari distribusi standar tertentu: yang mana rumus atau tabel statistik mungkin ada untuk fungsi distribusinya, dan Anda dapat memperkirakan parameternya. Dalam kasus yang terakhir ini, Anda kemungkinan menggunakan distribusi yang dinamai, misalnya "normal / Gaussian" (kedua istilah ini umumnya sama), sebagai model yang menangkap beberapa fitur utama dari data Anda, daripada mengklaim populasi yang menjadi data Anda. diambil dari persis mengikuti distribusi teoritis itu. Untuk sedikit mengutip George Box,semua model "salah", tetapi beberapa berguna. Jika Anda berpikir tentang pendekatan pemodelan, ada baiknya mempertimbangkan fitur apa yang ingin Anda sertakan dan seberapa rumit atau pelitnya model yang Anda inginkan.
Menjadi condong secara positif adalah contoh menggambarkan properti yang dimiliki oleh distribusi, tetapi tidak mendekati menentukan distribusi di luar rak yang merupakan "model" yang tepat. Itu mengesampingkan beberapa kandidat, misalnya distribusi Gaussian (yaitu normal) memiliki nol condong sehingga tidak akan sesuai untuk memodelkan data Anda jika condong adalah fitur penting. Mungkin ada properti lain dari data yang penting bagi Anda juga, misalnya itu unimodal (hanya memiliki satu puncak) atau dibatasi antara 0 dan 24 jam (atau antara 0 dan 1, jika Anda menulisnya sebagai pecahan hari ini), atau ada kemungkinan massa terkonsentrasi pada nol (karena ada orang yang tidak menonton youtube sama sekali pada hari tertentu).kurtosis . Dan perlu diingat bahwa walaupun distribusi Anda memiliki bentuk "punuk" atau "kurva-lonceng" dan memiliki kemiringan nol atau mendekati nol, itu tidak secara otomatis mengikuti bahwa distribusi normal adalah "benar" untuk itu! Di sisi lain, bahkan jika populasi data Anda berasal sebenarnya mengikuti distribusi tertentu dengan tepat, karena kesalahan pengambilan sampeldataset Anda mungkin tidak terlalu mirip. Kumpulan data kecil cenderung "berisik", dan mungkin tidak jelas apakah fitur tertentu yang dapat Anda lihat, misalnya punuk kecil atau ekor asimetris, adalah properti populasi yang mendasari data yang diambil (dan mungkin karena itu harus dimasukkan dalam model Anda) atau apakah itu hanya artefak dari sampel khusus Anda (dan untuk tujuan pemodelan harus diabaikan). Jika Anda memiliki kumpulan data kecil dan kemiringan mendekati nol, maka bahkan masuk akal distribusi yang mendasarinya sebenarnya simetris. Semakin besar kumpulan data Anda dan semakin besar kemiringannya, semakin tidak masuk akal hal ini menjadi - tetapi sementara Anda bisa melakukan uji signifikansi untuk melihat seberapa meyakinkan bukti yang diberikan data Anda untuk kemiringan dalam populasi itu diambil dari, ini mungkin tidak ada gunanya apakah distribusi normal (atau kemiringan nol lainnya) sesuai sebagai model ...
Properti mana dari data yang benar-benar penting untuk tujuan Anda bermaksud memodelkannya? Perhatikan bahwa jika kemiringannya cukup kecil dan Anda tidak terlalu peduli tentang hal itu, bahkan jika populasi yang mendasarinya benar-benar miring , maka Anda mungkin masih menemukan distribusi normal model yang berguna untuk memperkirakan distribusi sebenarnya dari waktu menonton ini. Tetapi Anda harus memeriksa bahwa ini tidak membuat prediksi yang konyol. Karena distribusi normal tidak memiliki nilai setinggi atau serendah mungkin, maka meskipun nilai yang sangat tinggi atau rendah menjadi semakin tidak mungkin, Anda akan selalu menemukan bahwa model Anda memprediksi ada beberapaprobabilitas menonton dalam jumlah negatif jam per hari, atau lebih dari 24 jam. Ini menjadi lebih bermasalah bagi Anda jika probabilitas yang diprediksikan dari kejadian yang mustahil tersebut menjadi tinggi. Distribusi simetris seperti normal akan memperkirakan bahwa banyak orang akan menonton untuk jangka waktu lebih dari misalnya 50% di atas rata-rata, seperti menonton kurang dari 50% di bawah rata-rata. Jika waktu menonton sangat miring, maka prediksi seperti ini mungkin juga tidak masuk akal sehingga konyol, dan memberi Anda hasil yang menyesatkan jika Anda mengambil hasil dari model Anda dan menggunakannya sebagai input untuk tujuan lain (misalnya, Anda Sedang menjalankan simulasi waktu menonton untuk menghitung penjadwalan iklan yang optimal). Jika kemiringan begitu penting Anda ingin menangkapnya sebagai bagian dari model Anda, makacondong distribusi normal mungkin lebih tepat. Jika Anda ingin menangkap skewness dan kurtosis, maka pertimbangkan t miring . Jika Anda ingin memasukkan batas atas dan bawah yang dimungkinkan secara fisik, maka pertimbangkan untuk menggunakan versi terpotong dari distribusi ini. Ada banyak distribusi probabilitas lain yang dapat condong dan unimodal (untuk pilihan parameter yang sesuai) seperti distribusi F atau gamma , dan sekali lagi Anda dapat memotong ini sehingga mereka tidak memprediksi waktu menonton yang sangat tinggi. Sebuah distribusi betamungkin merupakan pilihan yang baik jika Anda memodelkan fraksi dari hari yang dihabiskan menonton, karena ini selalu dibatasi antara 0 dan 1 tanpa pemotongan lebih lanjut diperlukan. Jika Anda ingin memasukkan konsentrasi probabilitas tepat pada nol karena non-pengamat, maka pertimbangkan membangun dalam model rintangan .
Tetapi pada titik Anda mencoba untuk melemparkan setiap fitur yang dapat Anda identifikasi dari data Anda, dan membangun model yang lebih canggih, mungkin Anda harus bertanya pada diri sendiri mengapa Anda melakukan ini? Apakah akan ada keuntungan untuk model yang lebih sederhana, misalnya lebih mudah untuk bekerja dengan matematis atau memiliki lebih sedikit parameter untuk diperkirakan? Jika Anda khawatir penyederhanaan seperti itu akan membuat Anda tidak dapat menangkap semua properti yang menarik bagi Anda, mungkin saja tidak ada distribusi "di luar rak" yang melakukan apa yang Anda inginkan. Namun, kami tidak dibatasi untuk bekerja dengan distribusi bernama yang sifat matematika telah dijelaskan sebelumnya. Sebagai gantinya, pertimbangkan untuk menggunakan data Anda untuk membangun fungsi distribusi empiris. Ini akan menangkap semua perilaku yang ada dalam data Anda, tetapi Anda tidak bisa lagi memberinya nama seperti "normal" atau "gamma", Anda juga tidak dapat menerapkan properti matematika yang hanya berkaitan dengan distribusi tertentu. Misalnya, "95% dari data terletak di dalam 1,96 standar deviasi dari mean" aturan untuk data yang terdistribusi normal dan mungkin tidak berlaku untuk distribusi Anda; meskipun perhatikan bahwa beberapa aturan berlaku untuk semua distribusi, misalnya ketidaksetaraan Chebyshev setidaknya menjamin75% dari data Anda harus berada dalam dua standar deviasi rata-rata, terlepas dari kemiringannya. Sayangnya distribusi empiris juga akan mewarisi semua properti set data Anda yang timbul murni karena kesalahan pengambilan sampel, bukan hanya yang dimiliki oleh populasi yang mendasarinya, jadi Anda mungkin menemukan histogram distribusi empiris Anda memiliki beberapa tonjolan dan penurunan yang tidak dimiliki populasi itu sendiri. . Anda mungkin ingin menyelidiki fungsi distribusi empiris yang lebih halus , atau lebih baik lagi, meningkatkan ukuran sampel Anda.
Singkatnya: meskipun distribusi normal memiliki nol condong, fakta data Anda miring tidak mengesampingkan distribusi normal sebagai model yang berguna, meskipun itu menunjukkan beberapa distribusi lain mungkin lebih tepat. Anda harus mempertimbangkan properti lain dari data saat memilih model Anda, selain kemiringannya, dan mempertimbangkan juga tujuan penggunaan model tersebut. Aman untuk mengatakan bahwa populasi sebenarnya dari waktu menonton Anda tidak benar-benar mengikuti beberapa distribusi terkenal yang bernama, tetapi ini tidak berarti distribusi seperti itu pasti akan sia-sia sebagai model. Namun, untuk beberapa tujuan Anda mungkin lebih suka menggunakan distribusi empiris itu sendiri, daripada mencoba menyesuaikan distribusi standar untuk itu.