Istilah statistik yang paling membingungkan


47

Kami ahli statistik menggunakan banyak kata dengan cara yang sedikit berbeda dari cara orang lain menggunakannya. Ini menyebabkan banyak masalah ketika kita mengajar atau menjelaskan apa yang sedang kita lakukan. Saya akan memulai daftar (dan sekarang saya akan menambahkan beberapa definisi, per komentar):

  • Kekuatan adalah kemampuan untuk menolak hipotesis nol palsu yang benar. Biasanya, ini berarti mengatakan "sesuatu sedang terjadi" dengan benar.
  • Bias - suatu statistik bias jika secara sistematis berbeda dari parameter populasi yang terkait dengannya.
  • Signifikasi 5% dari waktu.
  • Interaksi - Dua variabel independen berinteraksi jika hubungan antara variabel dependen dan satu variabel independen berbeda pada tingkat yang berbeda dari variabel independen lainnya

Tetapi harus ada banyak lainnya!


5
Saya sarankan orang menambahkan konteks yang lebih besar untuk jawaban mereka juga. Contohnya mungkin kata yang sama digunakan secara berbeda di bidang yang berbeda (fixed effect Gelman, 2005 ) atau kata-kata yang memiliki arti berbeda dalam konteks yang berbeda (signifikansi vs signifikansi statistik Bushway et al., 2006 ).
Andy W

5
Akan lebih baik jika penjawab dapat menjelaskan dalam satu atau dua kalimat apa arti istilah "teknis" sebenarnya, atau apa yang menyebabkannya dianggap memiliki makna yang berbeda.
chl

Saya akan menyelesaikan jawaban saya sesuai dengan komentar Anda nanti ;-)
ocram

1
... dan "korelasi"!
Stéphane Laurent

1
Untuk "contoh", lihat komentar di stats.stackexchange.com/questions/20945/… .
whuber

Jawaban:


21

"Significant" adalah yang terbesar yang saya temui, karena ia memiliki kedua makna bahasa Inggris yang umum dan makna yang akan muncul dalam diskusi hasil penelitian. Saya bahkan menemukan diri saya mencampuradukkan "signifikan" dengan arti penting dalam kalimat yang sama di mana saya berbicara tentang hasil statistik.

Dengan begitu terletak kegilaan.


Benar, tapi tidak ada kata yang lebih baik untuk "Aku sangat yakin itu penting, tapi aku belum melakukan tes di atasnya, dan tidak akan, karena itu jelas / tidak dapat dilakukan / apa pun"
naught101

17

Saya sarankan menambahkan Linear ke daftar.

Aku bertanya pertanyaan tentang math.SE tentang apa yang saya, sebagai seorang insinyur, anggap sebagai linear minimum rata-rata estimasi square error dari variabel acak diberikan nilai dari suatu variabel acak X (yang berarti memperkirakan Y sebagai Y = a X + b dengan a dan b dipilih untuk meminimalkan E [ ( Y - a X - b ) 2 ] ), dan memberikan jawaban parsial. Salah satu komentar pada pertanyaan itu berkataYXYY^=SebuahX+bSebuahbE[(Y-SebuahX-b)2]

"Saya agak tidak nyaman dengan bahasa Anda, karena saya khawatir cara menggunakan kata" linear "ini dapat menimbulkan kesalahpahaman populer bahwa alasan mengapa regresi linier dalam disebut regresi linier adalah karena seseorang sesuai dengan garis. Orang yang berpikir bahwa kemudian menemukan itu membingungkan ketika seorang ahli statistik bersikeras bahwa seseorang sedang melakukan regresi linier ketika seseorang cocok dengan parabola atau gelombang sinus, dll. "

Jadi, apa arti regresi linier bagi ahli statistik?


5
Pertanyaan terkait di situs mengacu pada jawaban ini, Apa artinya linear dalam regresi linear?
Andy W

1
@AndyW Jadi, apakah Anda akan mengatakan bahwa Linear termasuk dalam daftar yang dimulai oleh Peter Flom, atau tidak?
Dilip Sarwate

1
ya saya setuju itu sesuai dengan tagihan untuk daftar ini. (+1)
Andy W

4
Ini sesuai dengan daftar, tetapi untuk alasan yang tidak biasa: arti dari istilah "linear" sudah mapan dan digunakan secara konsisten di banyak bidang yang berorientasi matematis. Kekacauan potensial menyangkut bagian formula mana yang linear.
whuber

Bisakah Anda memberikan contoh bagaimana Anda cocok parabola dan masih menyebutnya model linier?
oneloop

14

kemungkinan; Peluang; probabilitas

Tampak bagi saya bahwa sebagian besar masalah yang terkait dengan menafsirkan tes hipotesis dan interval kepercayaan berasal dari penerapan definisi Bayesian tentang "probabilitas" ketika prosedur didasarkan pada yang sering. Sebagai contoh nilai-p adalah probabilitas hipotesis nol itu benar, ketika AFAICS tidak ada probabilitas yang dapat dikaitkan dengan kebenaran hipotesis tertentu dalam pengaturan yang sering terjadi.


4
Sepertinya pertimbangan yang sama akan berlaku bagi mereka yang terbiasa mengatakan bahwa (benar) parameter memiliki kemungkinan 95% untuk berbohong antara xx dan xx, ketika berbicara tentang / menafsirkan interval kepercayaan.
chl

1
ya, tentu saja!
Dikran Marsupial

1
+1 Namun saya akan mengucapkan kalimat terakhir Anda sedikit berbeda. Dalam pengaturan yang paling sering, probabilitas bahwa hipotesis nol itu benar adalah 1 atau 0, tetapi Anda tidak tahu yang mana . (Sebenarnya, ini tidak sepenuhnya benar, karena 'probabilitas' adalah frekuensi relatif jangka panjang dan 'frekuensi jangka panjang' tidak benar-benar berlaku. Meskipun demikian, ketika diungkapkan dengan cara ini orang dapat memahami apa yang dikatakan / bagaimana kita memahami situasi yang kita hadapi. Misalnya, orang-orang menyadari bahwa Anda tidak dapat menggunakan nilai-nol hipotesis nol sebagai probabilitas bahwa hipotesis nol itu benar.)
gung - Reinstate Monica

2
"Karena 'probabilitas' adalah frekuensi relatif jangka panjang" Banyak probabilis akan dengan keras membantah pernyataan itu
Dilip Sarwate

14

"Kepercayaan"

Sangat sulit untuk mencegah non-ahli statistik bahwa interval kepercayaan mereka bukan (langsung) pernyataan tentang kredibilitas nilai parameter yang berbeda.

Untuk memiliki kepercayaan, dalam arti teknis dari istilah tersebut, kita perlu membayangkan beberapa rangkaian percobaan berulang, masing-masing menghitung interval dalam beberapa cara yang telah ditentukan sebelumnya. Untuk menjadi interval kepercayaan 95%, 95% dari penggunaan rumus ini akan menjebak parameter minat yang relevan.

Sebuahb

(Tentu saja ada situasi di mana kedua konsep setuju, kira-kira atau tepatnya. Tetapi secara umum tidak, dan kesepakatan numerik tidak menghilangkan masalah penyalahgunaan istilah teknis.)


10

"Kemungkinan" - identik dengan "probabilitas" dalam percakapan sehari-hari, tetapi dalam Statistik memiliki arti khusus: itu adalah fungsi dari parameter model statistik, yang nilainya adalah probabilitas dari hasil yang diamati dengan asumsi bahwa parameter sama dengan nilai parameter.


8

Kesalahan.

Dalam statistik, "kesalahan" adalah penyimpangan nilai data aktual dari prediksi model.

Dalam kehidupan nyata, kesalahan adalah kesalahan atau kesalahan lain.


Bukankah kesalahan ejaan hanyalah penyimpangan dari nilai aktual (yang dimaksudkan) media komunikasi? Saya tidak benar-benar melihat bagaimana ini kata yang berbeda, hanya saja kata itu digunakan dalam konteks yang berbeda (tetapi tidak saling bertentangan). Saya merasa sulit untuk percaya bahwa itu akan membingungkan bagi seseorang yang baru ke lapangan.
naught101

2
Salah satu alasan mengapa suatu nilai bisa berbeda dari prediksi adalah karena eksperimen itu kacau. Itu seperti kesalahan ejaan. Tetapi mengapa berat badan Anda berbeda dari berat rata-rata semua orang dari jenis kelamin dan usia Anda? Mengapa penghasilan Anda berbeda dari pendapatan rata-rata? Dalam statistik, penyimpangan ini dari rata-rata adalah "kesalahan" tetapi itu bukan kesalahan, hanya variasi.
Harvey Motulsky

Benar, tapi itu tergantung bagaimana Anda melihatnya, saya pikir. jika Anda melihat ejaan kata di atas sampel sekolah dasar, Anda akan mendapatkan variasi, yang disebabkan oleh manusia, ya, tetapi juga bukan disebabkan oleh eksperimen. Anda dapat melihat hal yang sama dari menulis dalam bahasa Inggris dari berbagai usia. Saya rasa Anda akan menemukan bahwa bahasa Inggris awal memiliki variabilitas yang jauh lebih tinggi :)
naught101

@ HarveyMotulsky: kimia analitik menggunakan kesalahan dalam kedua cara. Kami berbicara tentang kesalahan sistematis, kesalahan acak dan kesalahan kotor. Buku Pelajaran: "kesalahan berat dapat dihindari".
cbeleites mendukung Monica

8

"Kesimpulan"

βb

Bagian penting lainnya tentang inferensi adalah teorema limit pusat. Setelah Anda menyadari bahwa Anda hanya mengambil sampel dari suatu populasi - meskipun pengambilan sampel adalah fitur rumit yang mirip dengan inferensi - maka Anda memahami bahwa meskipun mean sampel memiliki satu nilai, nilai tersebut tidak harus berarti sama dengan populasi. .

Mungkin saya mengambil pemahaman yang relatif longgar tentang pertanyaan Anda, tetapi begitu seseorang memahami kesimpulan atau perbedaan antara sampel dan populasi, maka keseluruhan statistik terbuka bagi mereka.


7

Bagi kami (atau setidaknya saya), "keacakan" dari "sampel" menunjukkan bahwa ia mewakili "populasi".

Bagi orang lain, "keacakan" kadang-kadang menyiratkan bahwa seseorang / sesuatu itu tidak biasa.


1
Saya belum mengalami kebingungan tentang "keacakan". Tetapi jika sudah, maka jelas itu ada.
Peter Flom - Pasang kembali Monica

3
Lebih tepatnya, bahwa itu ada
Thomas Levine

1
Penggunaan "acak" yang terakhir tampaknya cukup baru bagi saya. Saya merasa sedikit mengganggu karena alasan itu (hanya membuat statistik lebih sulit bagi orang untuk mengerti). Ini bahkan lebih menjengkelkan ketika saya mendengar diri saya menggunakannya dalam pengertian itu ..
naught101

5

Saya pikir orang harus membedakan antara istilah membingungkan masyarakat dan istilah membingungkan statistik. Saran di atas, sebagian besar istilah dipahami dengan baik oleh ahli statistik dan (mungkin) disalahpahami oleh publik. Saya ingin menambahkan ke daftar beberapa istilah yang tidak dimengerti oleh ahli statistik:

  • Bayesian: Awalnya disebut apa yang sekarang dikenal sebagai Bayes subyektif (alias epistemik, De-Finetti). Hari ini istilah ini akan digunakan kapan saja aturan Bayes muncul, jarang dalam konteks kepercayaan subyektif, yang dianggap sebagai teori keputusan.
  • Empiris Bayes: Awalnya merujuk pada pengaturan yang sering dilakukan dengan non parametrik sebelumnya. Hari ini, biasanya akan berarti parameter parametrik (objektif) sebelumnya diperkirakan dan tidak diketahui a-priori. Yakni, apa yang dulu dikenal sebagai kemungkinan maksimum tipe-II.
  • Non parametrik: Terkadang merujuk pada "model gratis". Terkadang untuk "bebas distribusi". Praktis menjadi tidak informatif pada masa sekarang model "parametrik" mungkin memasukkan jutaan parameter.
  • Tipe III kesalahan: kadang-kadang mengacu pada tanda kesalahan. Kadang merujuk pada salah spesifikasi model.

Ketika saya bertanya, saya bermaksud "istilah yang membingungkan masyarakat umum" tetapi istilah yang membingungkan bagi para ahli statistik juga layak dicantumkan
Peter Flom - Reinstate Monica

Ini mungkin harus dipecah menjadi jawaban yang terpisah.
naught101

4

Ekologis, umumnya digunakan untuk merujuk pada sistem biologis, tetapi juga kekeliruan statistik. Dari Wikipedia:

Kekeliruan ekologis (atau keliru inferensi ekologis) adalah kesalahan dalam interpretasi data statistik dalam studi ekologi, di mana kesimpulan tentang sifat individu tertentu didasarkan hanya pada statistik agregat yang dikumpulkan untuk kelompok yang menjadi tempat individu tersebut berada. Kekeliruan ini mengasumsikan bahwa anggota individu suatu kelompok memiliki karakteristik rata-rata kelompok pada umumnya.


3

Apakah "survei" adalah jenis matematika ("sampling survei") atau selembar kertas ("kuesioner")?

Saya belum melakukan survei mengenai hal ini, tetapi saya curiga banyak masyarakat menganggap "survei" sebagai yang terakhir. Saya menduga lebih lanjut bahwa mereka tidak memikirkan yang pertama.


2
Bukankah survei dilakukan oleh surveyor? ;)
zbicyclist

3

"Memuat", "Koefisien" dan "Bobot"; ketika berbicara tentang Analisis Komponen Utama.

Saya biasanya menemukan orang-orang cukup ad-hoc ketika menggunakannya, mempekerjakan mereka secara bergantian tanpa terlebih dahulu mendefinisikan secara jelas apa yang mereka maksud dan saya benar-benar menemukan makalah yang merujuk pada "memuat vektor" dan kadang-kadang berarti PC sendiri dan kadang-kadang "bobot" terkait dengan PC tertentu.

Mungkin fakta bahwa referensi Jollifee yang sangat baik tentang Komponen Utama menyatakan di akhir bagian 1.1 "Beberapa penulis membedakan antara istilah 'pemuatan' dan 'koefisien,' tergantung pada batasan normalisasi yang digunakan, tetapi mereka akan digunakan secara bergantian dalam buku ini." hanya membuat orang berpikir mereka memiliki pass bebas untuk mencampur dan mencocokkan terminologi dengan keinginan mereka ....


1

Model aditif. Masih tidak begitu yakin apa artinya ini. Saya pikir ini mengacu pada model tanpa syarat interaksi. Tapi kemudian saya akan menemukan artikel di mana mereka menggunakannya untuk merujuk pada sesuatu yang lain, yaitu model spline.


0

Salah satu istilah yang saya anggap paling membingungkan adalah "matriks kebingungan". Tentu saja, istilah yang digunakan itu sendiri membingungkan, bukan konsepnya.

Saya mencoba melacak sejarah istilah itu dan itu juga cukup menarik. Matriks kebingungan ditemukan pada tahun 1904 oleh ( http://en.wikipedia.org/wiki/Karl_Pearson ). Dia menggunakan istilah http://en.wikipedia.org/wiki/Contingency_table . Itu muncul di Karl Pearson, FRS (1904). Kontribusi matematika untuk teori evolusi (PDF). Dulau and Co. http://ia600408.us.archive.org/18/items/cu31924003064833/cu31924003064833.pdf

Selama Perang Dunia 2, h ttps: //en.wikipedia.org/wiki/Detection_theory dikembangkan sebagai penyelidikan hubungan antara stimulus dan tanggapan. Matriks kebingungan digunakan di sana.

Karena teori deteksi, istilah itu digunakan psikologi. Dari sana istilah tersebut mencapai pembelajaran mesin.

Tampaknya meskipun konsep itu ditemukan dalam statistik, suatu catatan yang sangat terkait dengan pembelajaran mesin, konsep tersebut mencapai pembelajaran mesin setelah jalan memutar selama periode 100 tahun.

Untuk beberapa referensi penggunaan istilah, lihat: Apa asal usul matriks kebingungan?


-4

"Statistik"

Kepada masyarakat umum, pengganti, "sekarang aku akan membohongimu dan berbicara dengan cara yang tidak kau mengerti."

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.