Membuat indeks kualitas dari berbagai variabel untuk memungkinkan pemesanan peringkat

22

Saya memiliki empat variabel numerik. Semuanya adalah ukuran kualitas tanah. Semakin tinggi variabel, semakin tinggi kualitasnya. Kisaran untuk semuanya berbeda:

Var1 dari 1 hingga 10

Var2 dari 1000 hingga 2000

Var3 dari 150 hingga 300

Var4 dari 0 hingga 5

Saya perlu menggabungkan empat variabel menjadi skor kualitas tanah tunggal yang akan berhasil menentukan urutan.

Ide saya sangat sederhana. Standarisasi keempat variabel, jumlahkan semuanya dan apa pun yang Anda dapatkan adalah skor yang seharusnya peringkat-urutan. Apakah Anda melihat masalah dengan menerapkan pendekatan ini. Apakah ada pendekatan lain (lebih baik) yang akan Anda rekomendasikan?

Terima kasih

Edit:

Terima kasih kawan Banyak diskusi masuk ke "keahlian domain" ... hal pertanian ... Padahal saya mengharapkan lebih banyak statistik-bicara. Dalam hal teknik yang akan saya gunakan ... Mungkin penjumlahan z-score + regresi logistik sederhana sebagai percobaan. Karena sebagian besar sampel memiliki kualitas buruk 90% saya akan menggabungkan 3 kategori kualitas menjadi satu dan pada dasarnya memiliki masalah biner (kualitas vs tidak ada kualitas). Saya membunuh dua burung dengan satu batu. Saya meningkatkan sampel saya dalam hal tingkat kejadian dan saya menggunakan pakar dengan meminta mereka untuk mengklasifikasikan sampel saya. Sampel yang dikelompokkan oleh para ahli kemudian akan digunakan agar sesuai dengan model log-reg untuk memaksimalkan tingkat kesesuaian / ketidaksesuaian dengan para ahli .... Bagaimana itu terdengar bagi Anda?

ranking valuation

— pengguna333
sumber

19

Pendekatan yang diusulkan dapat memberikan hasil yang masuk akal, tetapi hanya secara tidak sengaja. Pada jarak ini - yaitu, mengambil pertanyaan pada nilai nominal, dengan arti dari variabel-variabel yang disamarkan - beberapa masalah tampak jelas:

Bahkan tidak jelas bahwa setiap variabel berhubungan positif dengan "kualitas." Misalnya, bagaimana jika 10 untuk 'Var1' berarti "kualitas" lebih buruk daripada kualitas ketika Var1 adalah 1? Kemudian menambahkannya ke jumlah adalah tentang hal yang salah seperti yang dapat dilakukan seseorang; itu perlu dikurangi.
Standarisasi menyiratkan bahwa "kualitas" tergantung pada set data itu sendiri. Dengan demikian definisi akan berubah dengan set data yang berbeda atau dengan penambahan dan penghapusan data ini. Ini dapat membuat "kualitas" menjadi konstruk yang sewenang-wenang, sementara, dan tidak objektif serta menghalangi perbandingan antara set data.
Tidak ada definisi "kualitas". Apa artinya itu? Kemampuan untuk memblokir migrasi air yang terkontaminasi? Kemampuan untuk mendukung proses organik? Kemampuan untuk mempromosikan reaksi kimia tertentu? Tanah yang baik untuk salah satu tujuan ini mungkin sangat buruk untuk yang lain.
Masalah sebagaimana dinyatakan tidak memiliki tujuan: mengapa "kualitas" perlu diperingkat? Apa yang akan digunakan peringkat - masukan untuk analisis lebih lanjut, memilih tanah "terbaik", memutuskan hipotesis ilmiah, mengembangkan teori, mempromosikan produk?
Konsekuensi dari peringkat tidak jelas. Jika peringkatnya salah atau inferior, apa yang akan terjadi? Apakah dunia akan lebih lapar, lingkungan lebih terkontaminasi, ilmuwan lebih disesatkan, tukang kebun lebih kecewa?
Mengapa kombinasi variabel linier harus sesuai? Mengapa mereka tidak boleh dilipatgandakan atau diekspansiasi atau digabungkan sebagai posinomial atau sesuatu yang lebih esoteris?
Ukuran kualitas tanah mentah umumnya dinyatakan kembali. Sebagai contoh, permeabilitas log biasanya lebih bermanfaat daripada permeabilitas itu sendiri dan aktivitas log ion hidrogen (pH) jauh lebih berguna daripada aktivitas. Apa ekspresi ulang yang sesuai dari variabel untuk menentukan "kualitas"?

Orang akan berharap bahwa sains tanah akan menjawab sebagian besar pertanyaan-pertanyaan ini dan menunjukkan apa kombinasi yang tepat dari variabel-variabel untuk rasa objektif "kualitas". Jika tidak, maka Anda menghadapi masalah penilaian multi-atribut . Artikel Wikipedia mencantumkan lusinan metode untuk mengatasi ini. IMHO, kebanyakan dari mereka tidak pantas untuk menjawab pertanyaan ilmiah. Salah satu dari sedikit dengan teori yang solid dan potensi penerapan untuk hal-hal empiris adalah teori penilaian atribut berganda Keeney & Raiffa(MAVT). Ini mengharuskan Anda untuk dapat menentukan, untuk setiap dua kombinasi spesifik dari variabel, yang mana dari keduanya harus peringkat lebih tinggi. Urutan terstruktur dari perbandingan semacam itu mengungkapkan (a) cara yang tepat untuk mengekspresikan kembali nilai-nilai; (B) apakah kombinasi linear dari nilai-nilai yang dinyatakan kembali atau tidak akan menghasilkan peringkat yang benar; dan (c) jika kombinasi linier dimungkinkan, ia akan membiarkan Anda menghitung koefisien. Singkatnya, MAVT menyediakan algoritma untuk memecahkan masalah Anda asalkan Anda sudah tahu bagaimana membandingkan kasus-kasus tertentu.

— whuber
sumber

RE: 1. Saya tahu pasti bahwa "semakin tinggi angkanya, semakin tinggi kualitasnya" untuk keempat variabel RE: 2. Poin bagus. Apa yang bisa saya lakukan untuk membuat dua dataset dapat dibandingkan

— user333

2

@user Rekomendasi saya ada di paragraf terakhir: lebih disukai, temukan ekspresi kuantitatif "kualitas" dalam literatur ilmiah. Kecuali itu, terapkan MAVT. Keduanya menghasilkan formula tetap independen dari dataset. Itu menjamin keterbandingan.

— whuber

1

@whuber, Tidak bisakah seseorang memandang ini sebagai masalah dalam membuat ukuran formatif berdasarkan informasi yang tersedia, dalam hal mana menjumlahkan skor-Z tidak seburuk yang Anda katakan?

— Andy W

3

@Andy Bisakah Anda menjelaskan apa yang Anda maksud dengan "ukuran formatif" dan "informasi yang tersedia"? // Saya harus menunjukkan bahwa banyak ukuran kesesuaian tanah untuk pertanian bahkan tidak monotonik, apalagi linier: misalnya, tanaman mungkin tumbuh subur dalam kisaran pH tetapi menderita pH di luar kisaran ini di kedua arah . Memang akan menjadi keadaan khusus - mungkin yang melibatkan kisaran nilai yang sempit - jika kombinasi linier sederhana dari karakteristik tanah memiliki hubungan objektif dengan kualitas pertanian.

— whuber

2

(y_{1}, \dots, y_{k})

$(y_1, \ldots, y_k)$

(x_{1}, \dots, x_{k})

$(x_1, \ldots, x_k)$

— Whuber

3

Adakah yang melihat ulasan Russell G. Congalton tentang Penilaian Keakuratan Klasifikasi Data yang Dirasakan Secara Jauh '1990? Ini menggambarkan teknik yang dikenal sebagai matriks kesalahan untuk matriks matriks, juga istilah yang ia gunakan yang disebut 'Normalisasi data', di mana seseorang mendapatkan semua vektor yang berbeda dan 'menormalkan' atau menetapkannya sama dengan 0 hingga 1. Anda pada dasarnya mengubah semua vektor menjadi rentang yang sama dari 0 hingga 1.

— Ragus Paganini
sumber

0

Satu hal lain yang tidak Anda diskusikan adalah skala pengukuran. V1 dan V5 terlihat seperti urutan peringkat dan yang lainnya sepertinya tidak. Jadi standardisasi mungkin memiringkan skor. Jadi, Anda mungkin lebih baik mengubah semua variabel menjadi peringkat, dan menentukan bobot untuk setiap variabel, karena sangat tidak mungkin mereka memiliki bobot yang sama. Bobot yang sama lebih merupakan standar "tidak ada apa-apa". Anda mungkin ingin melakukan beberapa analisis korelasi atau regresi untuk menghasilkan beberapa bobot apriori.

— Ralph Winters
sumber

Bagaimana saya bisa menggunakan analisis korelasi untuk menentukan berat?

— user333

Jika Anda sudah memiliki ukuran kualitas yang sudah ada sebelumnya, misalnya pendapat ahli, (atau bersedia menerima variabel lain sebagai proxy untuk ini), Anda dapat memilih variabel berkorelasi tertinggi dan memberikan bobot tertinggi.

— Ralph Winters

-3

Menindaklanjuti jawaban Ralph Winters, Anda dapat menggunakan PCA (analisis komponen utama) pada matriks skor yang sesuai standar. Ini akan memberi Anda vektor bobot "alami" yang dapat Anda gunakan untuk menggabungkan skor masa depan.

Lakukan ini juga setelah semua skor diubah menjadi peringkat. Jika hasilnya sangat mirip, Anda punya alasan bagus untuk melanjutkan dengan metode mana pun. Jika ada perbedaan, ini akan menimbulkan pertanyaan menarik dan pemahaman yang lebih baik.

— Hans Engler
sumber

4

Saya tidak setuju. Sementara orang mungkin akan tertarik pada korelasi antar-item untuk rasa ingin tahu, semua variabel bisa ortogonal namun masih berkontribusi terhadap kualitas. Sebagai contoh konyol tanah di Antartika mungkin memiliki kandungan nitrogen yang optimal, tetapi saya ragu itu akan cukup sebagai iklim yang cocok.

— Andy W

@Andy W: Dalam hal ini, semua variabel harus diberi bobot yang sama, dan PCA akan memberi tahu Anda hal itu. Ini juga akan memberi tahu Anda bahwa komponen utama hanya menyumbang sebagian kecil dari keseluruhan variabilitas dalam matriks skor.

— Hans Engler

3

Saya masih tidak setuju. Itu tidak memberi tahu Anda jika skor harus ditimbang secara merata. Dua item dapat memiliki korelasi positif namun masing-masing memiliki hubungan yang berlawanan dengan "kualitas". Korelasi antar-item tidak selalu mengatakan apa-apa tentang ukuran yang tidak teramati dalam konteks yang diberikan. Jika kualitas adalah variabel laten dan variabel "reflektif" dari konstruk laten itu mungkin benar, tetapi itu tidak terjadi dalam contoh yang diberikan ini.

— Andy W

A

$A$

m \times n

$m \times n$

σ_{1} u v^{T}

$\sigma_1 uv^T$

A

$A$

n

$n$

v_{j}

$v_j$

v_{j}

$v_j$

— Hans Engler

3

Saya masih tidak setuju. Sekalipun asosiasi diharapkan berada pada arah yang sama, ini tidak berarti indikator-indikator tersebut harus secara inheren diberi bobot berdasarkan korelasi antar-item mereka. Varians bersama hanya dapat mengatakan sesuatu tentang hubungan antara indikator. Pikirkan model regresi di mana kami memperkirakan ukuran kualitas yang diketahui dari indikator-indikator ini. Korelasi antar-item antara indikator tidak memberi tahu Anda apa yang diharapkan dari lereng.

— Andy W