Apa cara yang baik untuk mengukur "linearitas" suatu dataset?


8

Saya memiliki dataset yang dikumpulkan secara empiris yang menghubungkan dua variabel. Pada rentang yang kecil hubungan tampak linier, namun pada rentang yang lebih besar jelas ada beberapa hubungan polinomial urutan kedua seperti yang dapat dilihat pada gambar di http://imgur.com/W7f9p .

Saya mencoba untuk mendapatkan ukuran linearitas untuk rentang yang berbeda dipertimbangkan. Misalkan pada 20 <x <60 atau 100 <x <120 itu sangat linier, tetapi pada 20 <x <180 itu tidak terlalu linier. Saya telah mencoba untuk mencocokkan garis lurus ke data dan menghitung data R ^ 2 (goodness of fit) tetapi ini menunjukkan bahwa garis lurus pada rentang yang lebih besar memiliki kesesuaian yang lebih baik daripada pada rentang yang lebih kecil. Meskipun ini mungkin benar dengan MS Excel, dari gambar itu jelas bahwa rentang yang lebih besar kurang linier ... jika Anda memegang sisi selembar kertas terhadap titik.

Apakah ada cara yang lebih baik untuk mengukur "linearitas" suatu dataset?


Pertanyaan ini mungkin harus (dan kemungkinan akan) dimigrasi ke situs statistik. Ada satu ton perangkat lunak hebat statistik gratis di luar sana. Anda mungkin mencari program R dan mencobanya.

Anda mungkin tertarik pada makalah ini ncbi.nlm.nih.gov/pubmed/16724492 Idenya adalah agar sesuai dengan model linear piecewise dan untuk menguji kesetaraan lereng (saya tidak berkomentar lagi karena saya belum membacanya)
Stéphane Laurent

2
Apakah Anda benar-benar tertarik dengan linearitas data atau linearitas kurva yang mendasarinya ? Perbedaannya adalah bahwa karena data (mungkin) sampel kurva tidak merata, ukuran berdasarkan data akan bervariasi sesuai dengan sifat pengambilan sampel, sedangkan perkiraan linearitas kurva akan lebih stabil di bawah perubahan program pengambilan sampel. Juga, apakah Anda menganggap "linearitas" sebagai properti absolut (dan dengan demikian tergantung pada unit pengukuran) atau apakah itu properti dari bentuk kurva (dan dengan demikian tidak berubah di bawah transformasi affine dari x dan y)?
Whuber

Jawaban:


6

Cocokkan kuadrat bukan fungsi linier. Nilai absolut dari estimasi koefisien tertinggi kuadrat berfungsi sebagai ukuran linearitas yang masuk akal, yaitu nol jika data terletak tepat di atas garis. Selain itu, jika data berasal dari model linier dengan noise Gaussian, teorema Gauss-Markov menjamin bahwa estimasi koefisien tidak bias, maka di bawah pengulangan kecocokan dengan beberapa data dari distribusi model yang sama, nilai yang diharapkan dari koefisien akan menjadi nol.

Tentu saja dalam satu kecocokan, satu biasanya tidak mendapatkan nol, jadi seseorang harus menggunakan beberapa tes untuk signifikansi koefisien.


dapatkah Anda menguraikan sedikit mengapa itu berfungsi sebagai ukuran linearitas yang masuk akal?
Lucas Reis

1
@LucasReis: Saya menambahkan beberapa alasan.
Arnold Neumaier

(+1) Menurut saya, ukuran "linearitas" apa pun yang masuk akal seharusnya tidak berubah di bawah perubahan lokasi dan skala (baik dalam variabel dependen maupun independen). Itu mengesampingkan penggunaan istilah kuadratik, tetapi menunjukkan mungkin ada manfaat dalam mempertimbangkan menggunakan istilah kuadratik ketika variabel standar digunakan dalam regresi. Perhatikan, bagaimanapun, bahwa istilah kuadrat tidak akan menangkap keberangkatan kompleks dari linearitas seperti pola seperti gelombang.
whuber

@whuber: poin bagus. Jawaban oleh Michael Chernick memiliki properti ini dan karenanya lebih disukai untuk saya.
Arnold Neumaier

Sebenarnya, saya lebih suka solusi Anda yang dimodifikasi oleh @Douglas Maynard (yang, dengan menggunakan betas, mencapai hasil invarian). Saya, pada awalnya, juga menyukai jawaban Chernick, tetapi ketika saya memeriksanya lebih dalam, tampaknya menginginkan beberapa hal penting. Salah satunya adalah bahwa itu sangat tergantung pada pengambilan sampel. Misalnya, pengambilan sampel berat pada nilai ekstrem akan mengarahkanke tanpa mengubah kelengkungan keseluruhan. Lain adalah bahwa itu salah ciri garis horizontal, yang linear sempurna tetapi untuk yang ! Istilah kuadrat, di sisi lain, kuat untuk perubahan yang berubah-ubah tersebut. x|ρ|1|rho|0
whuber

4

Salah satu cara untuk menjalankannya adalah menjalankan regresi hierarkis dengan variabel sumbu Y Anda sebagai hasil / kriteria. Pada langkah / blok 1 Anda akan memasukkan variabel X Anda sebagai prediktor, dan pada langkah / blok 2, masukkan istilah produk (X kuadrat atau dikalikan dengan dirinya sendiri). Istilah X kuadrat mewakili komponen kuadratik Anda. Bobot regresi standar (betas) untuk X dan X kuadrat akan memberi Anda rasa "kekuatan" dari komponen linear dan kuadrat relatif satu sama lain, dan perubahan R-kuadrat dari langkah / blok 1 ke langkah / blok 2 merupakan indikasi seberapa baik model tersebut cocok dengan data ketika Anda telah menambahkan komponen kuadratik.

Lihat Bab. 8 dalam Keith, TZ (2005). Regresi berganda dan seterusnya. Allyn & Bacon. 978-0205326440


1

Ukuran linearitas terbaik antara dua variabel x dan y adalah koefisien korelasi momen produk Pearson. Semakin dekat ke 1 dalam nilai absolut, semakin dekat fit ke garis lurus yang sempurna. Sekarang jika Anda berpikir ada linearitas yang baik di subkawasan, hitung korelasinya hanya untuk pasangan di subkawasan tersebut. Jika ada perubahan bentuk di luar wilayah itu harus muncul dalam penurunan korelasi ketika semua data dimasukkan.


(+1) en.wikipedia.org/wiki/… menjelaskan gagasan tersebut.
Arnold Neumaier

0

Alat statistik standar adalah koefisien korelasi (lihat jawaban Michael Chernick) yang merupakan nilai antara [-1,1] dan unit independen. Terkait dengan koefisien korelasi adalah kovarians. Kovarians dipengaruhi oleh unit tetapi mungkin lebih mudah untuk ditafsirkan. Namun, saya tidak suka salah satu opsi tersebut dalam kasus umum. Saya tidak suka mereka karena mereka tidak transformasi konformal independen. Pertimbangkan bahwa garis horizontal atau vertikal lurus dianggap tidak linier oleh kedua langkah tersebut.

Pilihan unitless yang lebih baik adalah menggunakan dekomposisi nilai singular (SVD). SVD memecah data menjadi bagian-bagian komponen yang diberi peringkat berdasarkan besarnya kontribusinya terhadap keseluruhan. Rasio bilangan singular terbesar dengan bilangan singular terbesar kedua karenanya merupakan metrik linearitas. Perhatikan, bahwa untuk menggunakan metode ini, Anda harus memusatkan data terlebih dahulu (membuat rata-rata koordinat X, Y, Z, dll sama dengan nol).

Contoh: Poin: 1126640.141 233575.2013; 1126630.008 233572.8567; 1126625.829 233572.7434;
1126625.416 233577.3781;

Poin Terpusat: 9.792639127 0.656480018; -0.340591673 -1.68817349; -4.519928343 -1.801499913; -4.932119113 2.833193384;

SVD, D matrix: 11.86500017 0; 0 3.813448344

Rasio Nilai singular 3.111357

Rasio di atas dapat secara kasar diartikan sebagai data yang tiga kali lebih panjang ke arah garis yang paling cocok karena cross-linear.

Untuk solusi dengan unit yang memiliki unit dan tidak memerlukan SVD. Lakukan beberapa penyetelan garis yang memiliki garis tengah sebagai salah satu parameter. Menggunakan data terpusat di atas ini sederhana: baris pt = 0 0 (selalu menjadi kasus untuk data terpusat) arah garis = -0.999956849 -0.009289783

Vektor dari pusat garis ke setiap titik adalah koordinat titik yang terpusat. Tentukan panjang proyeksi vektor-vektor ini ke garis (nilai absolut vektor dot arah garis), dan panjang komponen vektor tegak lurus (panjang arah vektor garis silang). Panjang Paralel, Panjang Tegak Berbulu 9.798315123, 0.565480194; 0.356259742, 1.684936621; 4.536468847, 1.759433021; 4.905586534, 2.878889448;

Proyeksi paralel maksimum adalah bentangan data di sepanjang garis. Panjang maksimum proyeksi tegak lurus adalah ukuran dari non-linearitas. Rasio keduanya adalah perkiraan rasio nilai singular di atas.

Catatan 1. Affine invariance dalam linearitas tidak mungkin. Pertimbangkan, dalam transformasi affine kita dapat skala semua kecuali satu dari sumbu koordinat hingga mendekati nol (membuat setiap set poin linier). Jadi invarian konformal adalah yang terbaik yang bisa kita lakukan. 2. Metode-metode ini TIDAK ROBUST untuk data outlier. 3. Contoh adalah 2D tetapi digeneralisasi ke N-dimensional.


Saya pikir Anda bermaksud mengatakan bahwa r ada di [-1,1] bukan [0,1]
mdewey
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.