Bagaimana cara menguji apakah data saya diskrit atau kontinu?

Sepertinya saya bahwa untuk memilih alat statistik yang tepat, saya harus terlebih dahulu mengidentifikasi apakah dataset saya diskrit atau kontinu.

Bisakah Anda mengajari saya bagaimana saya bisa menguji apakah data itu diskrit atau kontinu dengan R?

r continuous-data discrete-data

— evdstat
sumber

Apakah maksud Anda apakah variabel-variabel tertentu perlu ditambahkan sebagai prediktor kontinu atau kategoris (diskrit) dalam model tipe regresi?

— Nick Sabbe

Bagaimana data dikumpulkan dan bagaimana variabel dicatat kemungkinan akan memberi Anda beberapa petunjuk tentang itu; sebagai tambahan, ini kemungkinan tergantung pada apakah Anda ingin memodelkan data Anda sebagai yang kontinu atau diskrit (lihat misalnya, pertanyaan terkait dengan item Likert dan analisis skala diskrit). Poin yang tidak terkait: Akan baik jika Anda bisa mendaftarkan akun Anda sekali untuk semua, dan mungkin mempertimbangkan menerima jawaban atau merevisi pertanyaan Anda sebelumnya.

— chl

lakukan qqnorm dan jika semua titik sepanjang diagonal datanya kontinu (jika berada dalam garis horional maka diskrit)

— user222362

Satu-satunya alasan saya segera dapat memikirkan untuk meminta keputusan ini, adalah untuk memutuskan dimasukkannya variabel sebagai kontinu atau kategoris dalam regresi.

Pertama, kadang-kadang Anda tidak punya pilihan: variabel karakter, atau faktor (di mana seseorang memberikan data. Frame telah membuat keputusan untuk Anda) jelas kategoris.

Itu membuat kita dengan variabel numerik. Anda mungkin tergoda untuk hanya memeriksa apakah variabel adalah bilangan bulat, tetapi ini bukan kriteria yang baik: lihat baris pertama kode di bawah ini ( x1): ini adalah 1000 pengamatan hanya dari dua nilai dan : meskipun ini adalah bukan bilangan bulat, ini tampaknya variabel kategori yang jelas. Apa yang bisa Anda lakukan untuk beberapa adalah memeriksa berapa banyak nilai yang berbeda dalam data Anda, meskipun ambang yang Anda gunakan untuk ini akan bersifat subjektif, saya kira: $-1.5$ $2.5$ x

x1<-sample(c(-1.5, 2.5), 1000)
length(unique(x1)) #absolute number of different variables
length(unique(x1))/length(x1) #relative
x2<-runif(1000)
length(unique(x2)) #absolute number of different variables
length(unique(x2))/length(x2) #relative

Saya akan cenderung mengatakan bahwa variabel yang hanya memiliki nilai unik 5% dapat dengan aman disebut diskrit (tetapi, seperti yang disebutkan: ini subjektif). Namun: ini tidak menjadikannya kandidat yang baik untuk memasukkannya sebagai variabel kategori dalam model Anda: Jika Anda memiliki 1000000 pengamatan, dan 5% nilai unik, itu masih menyisakan 50.000 kategori ': jika Anda memasukkan ini sebagai kategori, Anda' Aku akan menghabiskan banyak sekali kebebasan.

Saya kira panggilan ini bahkan lebih subjektif, dan sangat tergantung pada ukuran sampel dan metode pilihan. Tanpa lebih banyak konteks, sulit untuk memberikan panduan di sini.

Jadi sekarang Anda mungkin memiliki beberapa variabel yang dapat Anda tambahkan sebagai kategori dalam model Anda. Tetapi haruskah Anda? Pertanyaan ini dapat dijawab (meskipun sangat tergantung, sekali lagi, pada tujuan Anda) dengan uji rasio kemungkinan: Model di mana variabel kategorikal adalah supermodel model dengan variabel sebagai kovariat kontinu. Untuk melihat ini, bayangkan regresi linier pada variabel xyang memiliki tiga nilai 0, 1dan 2. Menyesuaikan model: mana adalah indikator variabel dummy (sama dengan 1 jika ) hanya lebih fleksibel cara pemasangan model

E [y] = β_{0} + β_{1} 1 x_{1} + β_{1} 2 x_{2}

$E[y] = \beta_0 + \beta_11 x_{1} + \beta_12 x_{2}$

x_{i}

$x_i$

x == i

$x==i$

E [y] = β_{0} + β_{1} x

$E[y] = \beta_0 + \beta_1 x$ karena yang terakhir setara dengan

E [y] = β_{0} + β_{1} x_{1} + 2 β_{1} x_{2}

$E[y] = \beta_0 + \beta_1 x_{1} + 2 \beta_1 x_{2}$

Dengan struktur super / submodel, Anda dapat mengetahui apakah ada bukti dalam data bahwa struktur yang lebih kompleks diperlukan, dengan melakukan tes rasio kemungkinan : -2 kali perbedaan dalam log kemungkinan maksimum (biasanya ditunjukkan sebagai penyimpangan dalam R) akan ikuti dengan df = perbedaan dalam jumlah parameter (dalam contoh di atas: 4 parameter - 3 parameter). $\chi^2$

— Nick Sabbe
sumber

+1 Contoh yang bagus tentang bagaimana meningkatkan pertanyaan aneh dengan jawaban yang bagus.

Sebenarnya setiap kontinu dapat didiskritisasi, membuat histogram hanya menunjukkan bagaimana hal itu dilakukan dalam praktek. Mungkin saya mencampur data hitung (data nilai integer) dengan kategoris ... meskipun tebakan pertama saya adalah tentang distribusi diskrit dan kontinu, bukan hanya titik data (dan peneliti gila yang memberikan nilai nyata ke kategori), jadi ... tetap saja tambang terhapus , karena jangan berpikir itu memecahkan masalah (+1)

— Dmitrij Celov

sepertinya @Dmitrij menghapus jawabannya, bisakah Anda mengedit kembali jawaban Anda untuk mencerminkannya? Ini adalah jawaban yang bagus (+1), sehingga referensi ke konten yang tidak ada sedikit menonjol.

— mpiktas