Dapatkah regresi linier menjadi signifikan jika data tidak linier?

Saya melakukan regresi linier yang keluar dengan hasil yang signifikan namun ketika saya memeriksa plot-scatter untuk linearitas saya tidak yakin bahwa data itu linear.

Apakah ada cara lain untuk menguji linearitas tanpa memeriksa scatterplot?

Bisakah regresi linier menjadi signifikan jika tidak linier?

[Diedit untuk memasukkan scatterplots]

regression

— KeBiru
sumber

Mungkin ada beberapa interpretasi dari pertanyaan dan beberapa jawaban (tetapi pada dasarnya jawabannya adalah ya dalam semua kasus, dan sebagai bukti hasil Anda tentu mungkin dalam kasus Anda). Bisakah Anda menunjukkan sebar? Kemudian orang lain dapat memahami apa yang Anda maksudkan dengan data yang tidak linier dan dalam arti apa hasil signifikan ternyata hadir.

— Sextus Empiricus

Lihat stats.stackexchange.com/search?q=anscombe+quartet untuk contoh klasik sederhana. Di stats.stackexchange.com/a/152034/919 saya memposting algoritma yang mampu membuat contoh yang sesuai dengan hampir semua keadaan yang dapat Anda pikirkan.

— whuber

Tentu saja mengabaikan nolineararitas, bahkan ketika tren umum linier dapat menyebabkan inferensi dalam aplikasi. Sebagai contoh, jika hubungan sebenarnya adalah bahwa turun tajam, kemudian rata di , interpretasi linier dari adalah bahwa turun dengan jumlah rata-rata di atas semua nilai , sedangkan hubungan sebenarnya adalah bahwa turun lebih tajam dari rentang jauh lebih sempit , dan rentang tersisa kurang lebih tidak terpengaruh. Interpretasi linear akan berdampak buruk untuk efek perawatan klinis, atau untuk efek pengeluaran kebijakan.

Y

$Y$

X

$X$

Y

$Y$

X

$X$

Y

$Y$

X

$X$

X

$X$

— Alexis

Juga: regresi linier tidak signifikan atau tidak, melainkan tes, misalnya, , , , mungkin signifikan atau tidak, dengan tingkat independensi tertentu.

H_{0} : β_{0} = c

$H_{0}:\beta_{0} = c$

H_{0} : β_{x} = c

$H_{0}:\beta_{x} = c$

H_{0} : F = c

$H_{0}:F = c$

H_{0} : R^{2} = c

$H_{0}:R^{2} = c$

— Alexis

Terima kasih atas tanggapan dan permintaan maaf atas respons yang lambat - Saya sudah jauh dari teknologi! Saya telah mengedit posting untuk memasukkan scattergraphs untuk regresi yang signifikan. Setiap saran tentang bagaimana melanjutkan akan sangat dihargai.

— IntoTheBlue

Jawaban:

Hubungan nonlinier monotonik akan hampir selalu muncul signifikan ketika pemodelan sebagai model linier. Jika hubungannya nonlinear dan tidak monoton maka itu tergantung pada sampel.

Contoh hubungan monotonik adalah logaritma dan kekuatan ganjil seperti . Contoh hubungan non monotonik adalah bahkan kekuatan dan fungsi trigonomtrik seperti . $y=\ln x$ $y=x^3$ $y=x^2$ $y=\sin x$

Misalnya, jika sampel Anda adalah untuk , maka dimodelkan sebagai kemungkinan akan signifikan, lihat plot: $x\in[-1,1]$ $y=\sin x$ $y\sim x$

Namun, jika sampel Anda dalam , maka pemodelan linier tidak akan berfungsi sama sekali: $x\in[0,\pi]$

— Aksakal
sumber

+1. Tetapi harap dicatat bahwa istilah yang benar adalah "monoton." "Monoton" berarti membosankan dan membosankan melalui pengulangan.

— whuber

@whuber, edit jawaban saya, tetapi orang harus setuju bahwa membosankan dan menjemukan dibandingkan dengan ringan dan ceria

\ln x

$\ln x$

\sin x

$\sin x$

— Aksakal

+1 Saya juga menyarankan untuk mendefinisikan apa arti monoton.

— Mark White

Terima kasih, saya telah memperbarui pos untuk menyertakan scatterplots. Setiap saran tentang bagaimana melanjutkan akan sangat dihargai.

— IntoTheBlue

Saya tidak tahu apakah ada tes untuk linearitas per se. Anda dapat menambahkan istilah regresi nonlinear dan menguji signifikansinya, misalnya .

(x - \bar{x})^{2}

$(x-\bar x)^2$

— Aksakal

Ya, Aksakal benar dan regresi linier bisa signifikan jika hubungan yang sebenarnya adalah non-linear. Regresi linier menemukan garis yang paling sesuai melalui data Anda dan hanya menguji, apakah kemiringannya berbeda secara signifikan dari 0.

Sebelum mencoba menemukan tes statistik untuk non-linearitas, saya akan menyarankan merefleksikan apa yang ingin Anda modelkan terlebih dahulu. Apakah Anda mengharapkan hubungan linear (non-linear) antara dua variabel Anda? Apa yang sebenarnya ingin Anda buka? Jika masuk akal untuk berasumsi bahwa ada hubungan non-linear seperti misalnya antara kecepatan mobil dan jarak pengereman, maka Anda dapat menambahkan istilah kuadrat (atau transformasi lainnya) dari variabel independen Anda.

Juga, inspeksi visual terhadap data Anda (sebar) adalah metode yang sangat kuat dan langkah pertama yang penting dalam analisis Anda.

— Pawel
sumber

Hampir mendapat suara saya hingga "maka Anda dapat menambahkan istilah kuadrat (atau transformasi lainnya) dari variabel independen Anda". Hubungan kuadrat sama sewenang-wenangnya dengan hubungan linear. Saya pikir regresi non-parametrik yang membuat asumsi yang lebih umum tentang hubungan bentuk fungsional ke (diikuti oleh regresi linier dan / atau nonlinier sesuai jika estimasi parametrik diperlukan), atau pemasangan kurva algoritmik (misalnya, polinomial fraksional), bahkan mungkin bergeser ke pendekatan koefisien informasi maksimal untuk generalisasi bahkan di luar hubungan fungsional.

Y

$Y$

X

$X$

— Alexis

Juga: Selamat datang di CV, Pawel!

— Alexis

@Alexis Anda benar. Tetapi menambahkan istilah kuadrat masih merupakan rekomendasi yang sering dilihat dalam beberapa teks sebagai cara cepat dan kotor untuk memeriksa nonlinier (memahami tidak ada yang menyarankan itu adalah satu-satunya atau bahkan cara pertama untuk memodelkan nonlinier), jadi saya tidak begitu peduli tentang bagian itu.

— Whuber

+1 @whuber Sedihnya, saya telah menemukan banyak peneliti, mahasiswa dan fakultas berlatih menambahkan istilah kuadrat sebagai pemeriksaan pertama di luar pengamatan plot sebar sebagai "bagaimana menguji nonlinier", dengan hasil negatif yang ditafsirkan sebagai "linear sudah cukup ". (Istilah kuadrat memang bisa berguna, dan saya telah menggunakannya dalam penelitian saya sendiri. :) Saya kira perspektif saya tentang "cepat dan kotor" adalah bahwa hal-hal yang diajarkan semudah itu, menjadi kaku bagi sebagian besar peneliti. .. Saya pikir regresi nonparametrik adalah tentang "semudah" linear dan alat yang lebih baik untuk mengeksplorasi.

— Alexis

@Alexis Terima kasih. Saya pikir Anda salah paham. Saya tidak merekomendasikan untuk menambahkan istilah kuadrat untuk menguji non-linearitas tetapi pasti dapat dibuat kasus untuk istilah kuadrat (atau transformasi lainnya. Data ekonomi sering log-berubah). Saya pikir perlu ada perbedaan antara eksplorasi dan penjelasan analisis. Jika ada alasan kuat untuk mengasumsikan hubungan kuadrat maka ini perlu diuji. Apa yang Anda usulkan adalah pendekatan yang lebih eksploratif.

— Pawel

-2

Saya setuju dengan semua yang dikatakan Aksakal. Tetapi untuk pertanyaan pertama saya pikir jawabannya adalah korelasi. Korelasi mengukur sejauh mana ada hubungan linier antara set data x dan y.

— meh
sumber

Dengan "pertanyaan pertama", maksud Anda, "Apakah ada cara lain untuk menguji linearitas tanpa memeriksa scatterplot?" Jika demikian, bagaimana korelasi menjadi jawaban & "semua kata Aksakal" benar pada saat yang sama? Misalnya, tidak linier, tetapi akan menghasilkan korelasi yang signifikan, seperti yang dicatat Aksakal dengan benar. Dengan demikian, korelasi tidak bisa menjadi jawaban. Bisakah Anda mengklarifikasi apa yang Anda katakan di sini?

y = \ln x

$y=\ln x$

— gung - Reinstate Monica

@ung Ya saya lakukan. Pernyataan apa yang menurut Anda salah? Izinkan saya menyarankan bahwa saya mengerti apa arti kata-kata linear dan non-linear dan bahwa, seperti dalam jawaban Aksakal, sangat mudah untuk menemukan contoh variabel dengan hubungan yang tepat dan non-linear. Meskipun demikian, korelasi adalah ukuran hubungan linier dan korelasi +/- 1 berarti bahwa hubungan tersebut memang linier. Korelasi apa pun yang kurang dari itu berarti bahwa hubungannya (tidak persis) linear tetapi mungkin cukup dekat.

— meh

OP "melakukan regresi linier yang keluar dengan hasil yang signifikan", tetapi scatterplot menyiratkan hubungan itu tidak linier. Korelasi kemungkinan juga akan signifikan, pada kenyataannya, jika regresi hanya memiliki 1 variabel X, nilai-p dari regresi & korelasinya akan sama. Tetapi jika hubungan itu tidak linier meskipun regresi signifikan, itu masih tidak linier meskipun korelasi signifikan. Dengan demikian, korelasi yang signifikan bukanlah bukti bahwa hubungan itu linier.

— gung - Reinstate Monica

Selain itu, Anda tidak akan mendapatkan kecuali hubungannya bersifat deterministik. Dengan demikian, Anda dapat memiliki hubungan linear yang sangat baik tanpa menemukan . Yaitu, memeriksa apakah nilai adalah juga bukan cara yang baik untuk menentukan ini.

r = 1

$r=1$

r = 1

$r=1$

r

$r$

1

$1$

— gung - Reinstate Monica

Ini mungkin terdengar terlalu halus atau bahkan membingungkan, tetapi (a) Saya setuju bahwa korelasi adalah cara untuk mengukur linearitas hubungan bivariat - bagaimanapun juga, itu adalah teorema matematika - tetapi (b) sebagai proposisi umum, saya ragu bahwa itu bisa ditafsirkan sebagai cara kasar untuk menilai nonlinier. Bukti nonlinier dapat mencolok dalam dataset dengan korelasi sampel absolut tinggi dan benar-benar tidak ada dalam dataset dengan korelasi absolut kecil. (cc @gung)

— whuber