Apa konsep statistik paling sulit untuk dipahami?


32

Ini adalah pertanyaan yang mirip dengan yang ada di sini , tetapi cukup berbeda menurut saya layak untuk ditanyakan.

Saya pikir saya akan menjadi starter, apa yang saya pikir salah satu yang paling sulit untuk dipahami adalah.

Milik saya adalah perbedaan antara probabilitas dan frekuensi . Yang satu berada pada level "pengetahuan realitas" (probabilitas), sementara yang lain berada pada level "realitas itu sendiri" (frekuensi). Ini hampir selalu membuat saya bingung jika terlalu banyak memikirkannya.

Edwin Jaynes Menciptakan istilah yang disebut "fallacy proyeksi pikiran" untuk menggambarkan hal-hal ini bercampur aduk.

Adakah pemikiran tentang konsep sulit lainnya untuk dipahami?


(Saya tidak tahu cukup untuk menempatkan ini sebagai jawaban, karenanya menambahkan komentar.) Saya selalu berpikir aneh bahwa PI muncul dalam persamaan statistik. Maksud saya - apa yang harus dilakukan PI dengan statistik? :)
Reinstate Monica - Selamat tinggal

2
Saya setuju (Dalam mengejutkan saya) - Saya pikir itu muncul dalam banyak analisis matematika. Hanya sebuah catatan Anda dapat menulis π dengan dengan perintah Latex sebagai \ pi terlampir dalam tanda $. Saya menggunakan halaman wiki untuk mendapatkan sintaks en.wikibooks.org/wiki/LaTeX/Mathematics . Trik lain adalah "klik kanan" pada persamaan yang Anda lihat di situs ini, dan pilih "tampilkan sumber" untuk mendapatkan perintah yang digunakan. ππ\pi
probabilityislogic

@Wiki Jika Anda menerima bahwa muncul ketika Anda mulai dari mengukur panjang garis lurus ke panjang lingkaran, saya tidak melihat mengapa itu tidak akan muncul saat pergi dari mengukur probabilitas untuk jatuh pada segmen untuk mengukur probabilitas untuk jatuh dalam lingkaran? π
robin girard

@Wiki Setiap kali Anda memiliki fungsi trigonometri (sinus, cosinus, garis singgung dll.) Anda berisiko muncul. Dan ingat bahwa setiap kali Anda mendapatkan fungsi Anda sebenarnya menemukan garis singgung. Apa yang mengejutkan adalah bahwa π tidak muncul lebih sering. ππ
Carlos Accioly

@Carlos Saya menduga prevalensi sebagian besar disebabkan oleh penggunaan 2 metrik, yang mengarah ke n-bola. Dalam nada yang sama, saya harapkan itu e yang prevalensi adalah karena analisis. 2π2e
sesqu

Jawaban:


31

untuk beberapa alasan, orang mengalami kesulitan memahami apa sebenarnya nilai-p.


3
@shabbychef: Sebagian besar orang memahami dengan cara terburuk yaitu kemungkinan membuat kesalahan Tipe I.
suncoolsu

2
Saya pikir itu sebagian besar terkait dengan bagaimana nilai-p dijelaskan dalam kelas (yaitu: hanya dengan memberikan definisi cepat dan tanpa menentukan nilai-nilai p TIDAK)
nico

Saya pikir ini terutama berkaitan dengan bagaimana hal itu diperkenalkan. Bagi saya, itu adalah "tambahan" untuk tes hipotesis klasik - jadi sepertinya itu hanya cara lain untuk melakukan tes hipotesis. Masalah lainnya adalah bahwa biasanya hanya diajarkan berkenaan dengan distribusi normal, di mana semuanya "berfungsi dengan baik" (misalnya nilai-p adalah ukuran bukti dalam menguji rata-rata normal). Generalisasi nilai-p tidak mudah karena tidak ada prinsip khusus untuk memandu generalisasi (misalnya tidak ada kesepakatan umum tentang bagaimana nilai-p harus bervariasi dengan ukuran sampel & beberapa perbandingan)
probabilityislogic

@shabbychef +1 meskipun siswa sering mengalami kesulitan dengan nilai-p (kira-kira karena konsep dalam pengujian sedikit lebih halus daripada proses keputusan biner dan menjadi penyebab "membalik fungsi" tidak mudah dipahami). Ketika Anda mengatakan "karena suatu alasan", maksud Anda tidak jelas mengapa Anda mengalami kesulitan? PS: Jika saya bisa, saya akan mencoba membuat statistik di situs ini tentang hubungan antara "menjadi jawaban teratas" dan "berbicara tentang nilai-p" :). Saya juga bahkan bertanya pada diri sendiri apakah konsep statistik paling sulit untuk dipahami dapat memiliki paling banyak dukungan (jika sulit untuk dipahami ... :))
robin girard

1
@eduardo - ya nilai p yang cukup kecil cukup untuk menimbulkan keraguan pada hipotesis nol: tetapi dihitung dalam isolasi lengkap ke alternatif. Dengan menggunakan nilai-p saja, Anda tidak pernah dapat secara resmi "menolak" , karena tidak ada alternatif yang telah ditentukan . Jika Anda secara resmi menolak H 0 , maka Anda juga harus menolak perhitungan yang didasarkan pada asumsi H 0 yang benar, yang berarti Anda harus menolak perhitungan nilai p yang diperoleh berdasarkan asumsi ini (itu berantakan dengan kepala Anda , tapi itu satu-satunya cara untuk berpikir secara konsisten ). H0H0H0
probabilityislogic

23

Mirip dengan jawaban shabbychef, sulit untuk memahami arti interval kepercayaan dalam statistik frequentist. Saya pikir kendala terbesar adalah interval kepercayaan tidak menjawab pertanyaan yang ingin kami jawab. Kami ingin tahu, "berapa peluang bahwa nilai sebenarnya ada di dalam interval khusus ini?" Sebagai gantinya, kita hanya bisa menjawab, "berapa peluang interval yang dipilih secara acak yang dibuat dengan cara ini mengandung parameter sebenarnya?" Yang terakhir jelas kurang memuaskan.


1
Semakin saya memikirkan interval kepercayaan, semakin sulit bagi saya untuk memikirkan pertanyaan seperti apa yang dapat mereka jawab pada tingkat konseptual yang tidak dapat dijawab dengan menanyakan "peluang nilai sebenarnya berada dalam interval, mengingat status seseorang pengetahuan". Jika saya bertanya "apa peluang (tergantung pada informasi saya) bahwa pendapatan rata-rata pada tahun 2010 adalah antara 10.000 dan 50.000?" Saya rasa teori interval kepercayaan tidak dapat memberikan jawaban untuk pertanyaan ini.
probabilityislogic

21

Apa arti dari "derajat kebebasan"? Bagaimana dengan df yang bukan bilangan bulat?


13

Conditional probability probably leads to most mistakes in everyday experience. There are many harder concepts to grasp, of course, but people usually don't have to worry about them--this one they can't get away from & is a source of rampant misadventure.


+1; could you add an example or two, favourite or current ?
denis

1
For starters: P(you have the disease|test is positive) != P(test is positive|you have the disease).
xmjx

9

I think that very few scientists understand this basic point: It is only possible to interpret results of statistical analyses at face value, if every step was planned in advance. Specifically:

  • Sample size has to be picked in advance. It is not ok to keep analyzing the data as more subjects are added, stopping when the results looks good.
  • Any methods used to normalize the data or exclude outliers must also be decided in advance. It isn't ok to analyze various subsets of the data until you find results you like.
  • And finally, of course, the statistical methods must be decided in advance. Is it not ok to analyze the data via parametric and nonparametric methods, and pick the results you like.

Exploratory methods can be useful to, well, explore. But then you can't turn around and run regular statistical tests and interpret the results in the usual way.


5
I think John Tukey might disagree en.wikipedia.org/wiki/Exploratory_data_analysis ;o)
Dikran Marsupial

3
I would partially disagree here. I think the caveat that people miss is that the appropriate conditioning operations are easy to ignore for these kinds of issues. Each of these operations change the conditions of the inference, and hence, they change the conditions of it applicability (and therefore to its generality). These is definitely only applicable to "confirmatory analysis", where a well defined model and question have been constructed. In exploratory phase, not looking to answer definite questions - more looking to build a model and come up with hypothesis for the data.
probabilityislogic

I edited my answer a bit to take into account the comments of Dikran and probabilityislogic. Thanks.
Harvey Motulsky

1
For me, the "excluding outliers" is not as clearly wrong as your answer implies. For example, you may only be interested in the relationships at a certain range of responses, and excluding outliers actually helps this kind of analysis. For example, if you want to model "middle class" income, then excluding the super rich and impoverished outliers is a good idea. It is only the outliers within your frame of inference (e.g. "strange" middle class observations) were your comments apply
probabilityislogic

2
Ultimately the real problem with the issues raised in the initial answer is that they (at least partially) invalidate p-values. If you are interested in quantifying an observed effect, one should be able to do any and all of the above with impunity.
russellpierce

9

Tongue firmly in cheek: For frequentists, the Bayesian concept of probability; for Bayesians, the frequentist concept of probability. ;o)

Both have merit of course, but it can be very difficult to understand why one framework is interesting/useful/valid if your grasp of the other is too firm. Cross-validated is a good remedy as asking questions and listening to answers is a good way to learn.


2
I rule I use to remember: Use probabilities to predict frequencies. Once the frequencies have been observed, use them to evaluate the probabilities you assigned. The unfortunately confusing thing is that, often the probability you assign is equal to a frequency you have observed. One thing I have always found odd is why do frequentists even use the word probability? wouldn't it make their concepts easier to understand if the phrase "the frequency of an event" was used instead of "the probability of an event"?
probabilityislogic

Interestingly, cross validation can be seen as a Monte Carlo approximation to the integral of a loss function in Decision Theory. You have an integral p(x)L(xn,x)dx and you approximate it by i=1i=nL(x[ni],xi) Where xn is data vector, and x[ni] is the data vector with the ith observation xi removed
probabilityislogic

8

From my personal experience the concept of likelihood can also cause quite a lot of stir, especially for non-statisticians. As wikipedia says, it is very often mixed up with the concept of probability, which is not exactly correct.



6

What do the different distributions really represent, besides than how they are used.


3
This was the question I found most distracting after statistics 101. I would encounter many distributions with no motivation for them beyond "properties" that were relevant to topics at hand. It took unacceptably long to find out what any represented.
sesqu

1
Maximum entropy "thinking" is one method which helps understand what a distribution is, namely a state of knowledge (or a description of uncertainty about something). This is the only definition that has made sense to me in all situations
probabilityislogic

Ben Bolker provides a good overview of this in the 'beastiary of distributions' section of Ecological Models and Data in R
David LeBauer

5

I think the question is interpretable in two ways, which will give very different answers:

1) For people studying statistics, particularly at a relatively advanced level, what is the hardest concept to grasp?

2) Which statistical concept is misunderstood by the most people?

For 1) I don't know the answer at all. Something from measure theory, maybe? Some type of integration? I don't know.

For 2) p-value, hands down.


Measure theory is neither a field of statistics nor hard. Some types of integration are hard, but, once again, that isn't statistics.
pyon

5

Confidence interval in non-Bayesian tradition is a difficult one.


5

I think people miss the boat on pretty much everything the first time around. I think what most students don't understand is that they're usually estimating parameters based on samples. They don't know the difference between a sample statistic and a population parameter. If you beat these ideas into their head, the other stuff should follow a little bit easier. I'm sure most students don't understand the crux of the CLT either.

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.