Uji apakah 2 dataset yang didistribusikan secara eksponensial berbeda


8

Saya memiliki 2 set data yang terdistribusi secara eksponensial dan saya ingin memastikan bahwa mereka berasal dari distribusi yang berbeda. Sayangnya kesalahan yang diperlukan dalam pendeteksian data memaksa saya untuk membuang semua data di bawah ambang batas tertentu. Dalam setiap set saya memiliki sekitar 3000 titik data dan memplot data membuat saya berpikir bahwa nilai lambda berbeda. Pemasangan juga menghasilkan nilai yang berbeda untuk lambda.

Bagaimana saya bisa yakin bahwa kedua set data berasal dari distribusi yang berbeda?

Berikut plot bagaimana himpunan tampak (Perhatikan bahwa semua nilai di bawah lifetime = 3sec harus dibuang):

UPDATE: Distribusi di atas dalam kedua kasus dinormalisasi atas N hanya untuk membandingkannya lebih baik dalam grafik karena jumlah total titik data N berbeda.

UPDATE2: Setelah pemotongan saya memiliki sekitar 150 nilai seumur hidup untuk dataset merah dan 350 untuk dataset biru. Ternyata 3000 itu dibesar-besarkan (saya minta maaf).

UPDATE3: Terima kasih telah membantu saya. Berikut adalah data mentah:

http://pastebin.com/raw.php?i=UaGZS0im

http://pastebin.com/raw.php?i=enjyW1uC

Sejauh ini saya memasang fungsi eksponensial untuk kedua set data dan membandingkan lereng. Karena normalisasi apa pun tidak boleh mengubah kemiringan data, lereng yang berbeda harus menyiratkan distribusi eksponensial yang berbeda (Pengalaman saya dengan analisis statistik sangat terbatas).

Nilai-nilai di bawah ambang batas dibuang karena pengukuran mendeteksi banyak peristiwa terlalu sering dalam rezim itu.

UPDATE4: Saya baru menyadari bahwa masalah saya jauh lebih rumit dari yang saya kira. Saya benar-benar meninggalkan sensor (saya tidak tahu awal dari beberapa peristiwa) dan sensor kanan (tidak tahu akhir dari beberapa peristiwa) data DAN saya harus membuang semua masa hidup di bawah 3s (pemotongan). Apakah ada cara untuk menggabungkan semua itu ke dalam satu analisis? Sejauh ini saya menemukan bantuan tentang cara bekerja dengan data yang disensor (analisis survival) tetapi apa yang harus saya lakukan dengan pemotongan?


Karena plot tampaknya menunjukkan kepadatan, bagaimana perkiraannya?
Yves

Ini terdengar seperti data yang disensor. Anda kehilangan informasi dan berpotensi bias hasilnya dengan membuang yang di bawah ambang batas. Alih-alih, Anda perlu melaporkan ambang itu (3 detik, saya mengerti) dan memberikan jumlah nilai yang dibuang dalam setiap grup. Anda juga harus menjelaskan data kuantitatif yang ditunjukkan di bawah ambang (seperti titik coklat di kiri bawah). Memberi label sumbu vertikal sebagai "kepadatan" adalah misterius: tentu saja data asli Anda hanya seumur hidup dan plot ini memberikan jumlah dalam kelas seumur hidup yang sempit?
whuber

Jika Anda ingin membandingkan dua distribusi bersyarat (di atas ambang batas) Anda dapat menggunakan uji-F untuk perbandingan cara seperti yang dijelaskan oleh @Glen_b di stats.stackexchange.com/a/76695/10479
Yves

Harap: hapus normalisasi agar kami dapat melihat data aktual (normalisasi menghancurkan informasi penting) dan beri tahu kami berapa banyak nilai yang biasanya Anda buang dalam data.
Whuber

Saya menambahkan data mentah ke pertanyaan. Pada set data pertama saya harus membuang 50% pada set data kedua sekitar 30%.
MaxJ

Jawaban:


5

Masa hidup yang terdistribusi secara eksponensial adalah kasus sederhana untuk analisis survival . Menganalisa mereka sering merupakan contoh pertama yang berhasil untuk membuat siswa mulai sebelum pindah ke situasi yang lebih rumit. Selain itu, analisis survival secara alami cocok untuk data yang disensor. Singkatnya, saya sarankan Anda menggunakan analisis survival dengan indikator pengelompokan untuk dua distribusi sebagai efek pengobatan. Anda bisa menggunakan model parametrik (misalnya, model Weibull, karena eksponensial adalah kasus khusus Weibull ), atau Anda bisa menggunakan metode non-parametrik, seperti tes peringkat log , jika Anda mau.


Apakah ini juga berlaku untuk data terpotong? Saya pikir masalah saya agak berbeda dengan menyensor atau?
Maks.

@ user3683367, pemotongan berbeda dengan menyensor. Ini akan menguji perbedaan dalam distribusi di atas batas deteksi.
gung - Reinstate Monica

Saya menyingkirkan pemotongan (pengaturan exp baru) dan hanya menggunakan data yang disensor kiri dan kanan dalam MATLABS toolbox statistik. Saya menggunakan fungsi Weibull dengan data sensor kiri dan kanan. Cara yang dipasang berbeda dan batas kesalahannya tidak tumpang tindih. Bagaimana saya bisa menghitung probabilitas bahwa distribusi saya sebenarnya sama?
Maks.

@ user3683367, Anda tidak dapat menghitung probabilitas bahwa distribusinya sama. Itu probabilitas baik atau , & Anda tidak tahu mana. Sebagai gantinya, Anda dapat menghitung probabilitas mendapatkan 2 grup divergen ini jika mereka berasal dari distribusi yang sama; itu nilai-p. Sejauh cara mendapatkan MATLAB untuk memberikan itu kepada Anda, saya tidak tahu - Saya belum pernah menggunakan MATLAB dalam waktu yang lama, tetapi nilai p pada kontras perlakuan harus datang dengan output model standar. 10
gung - Reinstate Monica

2

Anda tertarik dengan tes berikut: H0:λ1=λ2 dimana λiadalah parameter tunggal yang secara unik mengidentifikasi distribusi eksponensial yang Anda hadapi. Sejakλ juga sesuai dengan rata-rata distribusi ini Anda pada dasarnya tertarik untuk menguji perbedaan rata-rata dalam dua distribusi ini.

Karena Anda memiliki ukuran sampel yang besar, untuk menguji ini kami dapat mengajukan banding ke teorema batas pusat yang memberi tahu kami hal berikut:

Teorema Limit Pusat: misalkan X1,X2,...Xn adalah urutan variabel acak iid dengan E[Xi]=μ and Var[Xi]=σ2<. Kemudian sebagain mendekati tak terhingga, variabel acak n(X¯μ)konvergen dalam distribusi ke normal distribusi.N(0,σ2)

Dengan kata lain, sampel Anda berarti untuk masing-masing dari dua kelompok tersebut terdistribusi normal. Karena Anda tidak tahu nilai sebenarnya dari , Anda dapat melakukan tes-t untuk perbedaan cara.σ2


1
Karena distribusi eksponensial sangat miring, sedikit analisis diperlukan untuk membenarkan penerapan CLT. Jika memang data ini tidak disensor, ternyata itun=3000akan lebih dari cukup untuk membuat perkiraan normal menjadi bagus. (Bukti: cgf dari meann eksponensial pertama adalah ψ(t)=t2/(2n)+it3/(3n2)+O(t4), menyiratkan kemiringan itu 2n, yang kecil untuk n=3000.) Tetapi ini bisa menjadi kesalahan serius jika sebagian besar dari kedua dataset telah dibuang.
whuber

Saya mengedit pertanyaan saya. Bisakah saya benar-benar menerapkan CLT untuk data yang disensor kiri dengan N = 100-300?
MaxJ

Koreksi saya jika saya salah, tetapi saya percaya poin Whuber adalah bahwa jika distribusi eksponensial terpotong maka itu bukan lagi distribusi eksponensial murni. Inti dari argumen saya adalah bahwa mean dari distribusi eksponensial secara unik mengidentifikasinya. Jika distribusi terpotong baru ini tidak lagi diidentifikasi secara unik oleh itu berarti dari argumen saya mungkin gagal. Apakah data terpotong atau tidak, Anda masih dapat melakukan perbedaan uji t rata-rata. Jika caranya berbeda maka distribusinya berbeda.
TrynnaDoStat

Jika poin Whuber adalah bahwa CLT tidak berlaku maka saya harus tidak setuju dengannya. Apakah data Anda berasal dari distribusi eksponensial murni atau terpotong, Anda masih memiliki sampel pertama dari distribusi yang sama dengan beberapa rata-rataμ dan beberapa varian terbatas σ2.
TrynnaDoStat

2
Maksud saya bukan bahwa CLT tidak dapat diterapkan: itu adalah bahwa untuk menerapkannya Anda harus memeriksa bahwa perkiraan asimptotik adalah yang baik. CLT tidak mengatakan apa - apa tentang distribusi rata-rata dari sejumlah terbatas variabel id, varian terbatas. Dan tolong jangan bingung pemotongan dengan sensor: masalah yang dibuat oleh sensor adalah bahwa beberapa data bahkan bukan angka (mereka adalah interval) - jadi fortiori CLT tidak dapat (langsung) menerapkan dalam situasi itu.
Whuber
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.