Saya menghargai jawaban yang lain, tetapi bagi saya sepertinya latar belakang topologi akan memberikan struktur yang sangat dibutuhkan untuk tanggapan.
Definisi
Mari kita mulai dengan menetapkan definisi domain:
variabel kategori adalah variabel yang domainnya mengandung elemen, tetapi tidak ada hubungan yang diketahui di antara mereka (sehingga kami hanya memiliki kategori). Contohnya, tergantung pada konteksnya, tetapi saya akan mengatakan dalam kasus umum, sulit untuk membandingkan hari dalam seminggu: apakah Senin sebelum Minggu, jika demikian, bagaimana dengan Senin berikutnya? Mungkin contoh yang lebih mudah, tetapi kurang digunakan adalah potongan-potongan pakaian: tanpa memberikan konteks yang masuk akal akan suatu pesanan, sulit untuk mengatakan apakah celana panjang datang sebelum jumper atau sebaliknya.
variabel ordinal adalah salah satu yang memiliki urutan total yang ditentukan atas domain, yaitu untuk setiap dua elemen domain, kita dapat mengatakan bahwa keduanya identik, atau satu lebih besar dari yang lain. Sebuah skala Likert adalah contoh yang baik dari definisi variabel ordinal. "agak setuju" jelas lebih dekat dengan "sangat setuju" daripada "tidak setuju".
variabel interval adalah satu, yang domainnya mendefinisikan jarak antara elemen ( metrik ), sehingga memungkinkan kita untuk menentukan interval.
Contoh domain
Sebagai seperangkat paling yang kita gunakan, alami dan bilangan real memiliki total order standar dan metrik. Inilah sebabnya mengapa kita harus berhati-hati ketika kita menetapkan angka untuk kategori kita. Jika kita tidak berhati-hati untuk mengabaikan ketertiban dan jarak, kita praktis mengkonversi data kategorikal kita menjadi data interval. Ketika seseorang menggunakan algoritma pembelajaran mesin tanpa mengetahui cara kerjanya, seseorang berisiko membuat asumsi seperti itu dengan enggan, sehingga berpotensi membatalkan hasil sendiri. Sebagai contoh, algoritma pembelajaran mendalam yang paling populer bekerja dengan bilangan real mengambil keuntungan dari interval dan sifat kontinu. Contoh lain, pikirkan skala Likert 5 poin, dan bagaimana analisis yang kami terapkan pada mereka mengasumsikan bahwa jarak antara sangat setuju dan setujusama dengan tidak setuju dan tidak setuju atau tidak setuju . Sulit membuat kasus untuk hubungan semacam itu.
Set lain yang sering kita kerjakan adalah string . Ada sejumlah metrik kesamaan string yang berguna saat bekerja dengan string. Namun, ini tidak selalu berguna. Misalnya, untuk alamat, John Smith Street dan John Smith Road cukup dekat dalam hal kesamaan string, tetapi jelas mewakili dua entitas yang berbeda yang dapat berjarak beberapa mil.
Statistik ringkasan
Ok, sekarang mari kita lihat bagaimana beberapa ringkasan statistik cocok dengan ini. Karena statistik berfungsi dengan angka, fungsinya didefinisikan dengan baik dalam interval waktu tertentu. Tapi mari kita lihat contoh apakah kita bisa menggeneralisasikannya ke data kategorikal atau ordinal:
- mode - baik saat bekerja dengan data kategoris dan ordinal, kita dapat mengetahui elemen mana yang paling sering digunakan. Jadi kita punya ini. Kemudian kita juga bisa mendapatkan semua tindakan lain yang dicantumkan @Maddenker dalam jawaban mereka. Interval kepercayaan @ gung juga bisa berguna.
- median - seperti yang dikatakan @ peter-flom, selama Anda memiliki pesanan, Anda dapat menurunkan median Anda.
- berarti , tetapi juga standar deviasi, persentil, dll - Anda hanya mendapatkan ini dengan data interval, karena kebutuhan akan metrik jarak.
Contoh kontekstualitas data
Pada akhirnya, saya ingin menekankan lagi bahwa urutan dan metrik yang Anda tetapkan pada data Anda sangat kontekstual. Ini seharusnya sudah jelas sekarang, tetapi izinkan saya memberi Anda contoh terakhir: ketika bekerja dengan lokasi geografis, kami memiliki banyak cara berbeda untuk mendekati mereka:
- jika kita tertarik pada jarak di antara mereka, kita dapat bekerja dengan geolokasi mereka, yang pada dasarnya memberi kita ruang numerik dua dimensi, dengan demikian interval.
- jika kita tertarik pada bagian hubungan mereka, kita dapat menentukan urutan total (misalnya jalan adalah bagian dari kota, dua kota adalah sama, satu benua berisi negara)
- jika kita tertarik pada apakah dua string mewakili alamat yang sama, kita dapat bekerja dengan jarak string yang akan mentolerir kesalahan ejaan dan bertukar posisi kata, tetapi pastikan untuk membedakan istilah dan nama yang berbeda. Ini bukan hal yang mudah, tetapi hanya untuk membuat kasus.
- Ada banyak kasus penggunaan lainnya, yang kita semua temui setiap hari, di mana tidak ada yang masuk akal. Dalam beberapa dari mereka tidak ada yang lebih dari memperlakukan alamat hanya sebagai kategori yang berbeda, yang lain turun ke pemodelan dan preprocessing data yang sangat cerdas.