Angkat ukuran dalam penambangan data

36

Saya mencari di banyak situs web untuk mengetahui apa yang sebenarnya akan dilakukan lift? Hasil yang saya temukan semua tentang menggunakannya dalam aplikasi tidak dengan sendirinya.

Saya tahu tentang fungsi dukungan dan kepercayaan diri. Dari Wikipedia, dalam penggalian data, lift adalah ukuran kinerja model dalam memprediksi atau mengklasifikasikan kasus, mengukur terhadap model pilihan acak. Tapi bagaimana caranya? Dukungan kepercayaan diri * adalah nilai lift. Saya mencari formula lain juga, tetapi saya tidak mengerti mengapa grafik lift penting dalam akurasi nilai prediksi. Maksud saya, saya ingin tahu kebijakan dan alasan apa di balik lift?

data-mining

— Nickool
sumber

2

Perlu konteks di sini. Dalam pemasaran, ini akan menjadi bagan yang akan menunjukkan persen peningkatan penjualan yang diharapkan dari berbagai kegiatan pemasaran, tetapi Anda mungkin memiliki konteks yang berbeda dalam pikiran.

— zbicyclist

59

Saya akan memberikan contoh bagaimana "lift" berguna ...

Bayangkan Anda menjalankan kampanye surat langsung di mana Anda mengirimkan penawaran kepada pelanggan dengan harapan mereka merespons. Data historis menunjukkan bahwa ketika Anda mengirimkan basis pelanggan Anda secara acak sekitar 8% dari mereka menanggapi pengiriman (yaitu mereka datang dan berbelanja dengan penawaran). Jadi, jika Anda mengirim 1.000 pelanggan, Anda dapat mengharapkan 80 responden.

Sekarang, Anda memutuskan untuk mencocokkan model regresi logistik dengan data historis Anda untuk menemukan pola-pola yang dapat diprediksi apakah seorang pelanggan cenderung merespons suatu pengiriman. Dengan menggunakan model regresi logistik, setiap pelanggan diberi peluang untuk merespons dan Anda dapat menilai akurasi karena Anda tahu apakah mereka benar-benar merespons. Setelah setiap pelanggan diberikan probabilitas mereka, Anda memberi peringkat mereka dari pelanggan yang mendapatkan skor tertinggi hingga terendah. Maka Anda dapat menghasilkan beberapa "lift" grafik seperti ini:

masukkan deskripsi gambar di sini

Abaikan grafik teratas untuk saat ini. Bagan bawah mengatakan bahwa setelah kami mengurutkan pelanggan berdasarkan probabilitas mereka merespons (tinggi ke rendah), dan kemudian memecahnya menjadi sepuluh tempat sampah yang sama, tingkat respons dalam nampan # 1 (10% pelanggan teratas) adalah 29 % vs 8% dari pelanggan acak, untuk kenaikan 29/8 = 3.63. Pada saat kita mendapatkan skor pelanggan di nampan ke-4, kita telah menangkap begitu banyak tiga sebelumnya sehingga tingkat respons lebih rendah dari apa yang kita harapkan mengirim orang secara acak.

Melihat grafik teratas sekarang, apa yang dikatakannya adalah bahwa jika kita menggunakan skor probabilitas pada pelanggan, kita bisa mendapatkan 60% dari total responden, kita akan menerima pengiriman secara acak hanya dengan mengirimkan 30% teratas dari pelanggan yang dinilai. Artinya, dengan menggunakan model, kita bisa mendapatkan 60% dari laba yang diharapkan untuk 30% dari biaya pengiriman dengan hanya mengirimkan 30% dari pelanggan yang dinilai, dan inilah yang benar-benar mengacu pada lift .

— Josh Hemann
sumber

Penjelasan yang bagus terima kasih banyak. Maukah Anda memberi tahu saya dalam bagan Angkat mengapa kita perlu sampel acak? Saya mengerti 8% berasal dari acak tetapi mengapa diperlukan untuk melacak acak? Saya melihat grafik lain yang melacak rata-rata nilai dan saya juga tidak tahu alasan keberadaan rata-rata

— Nickool

hal yang saya dapatkan adalah bahwa lift = 3,63 mengatakan bahwa sampai kolom 4 kita memiliki tingkat respons yang lebih baik daripada 8% dengan baik, maka Anda hanya menganggap kolom 1 dan dengan mempertimbangkan 29% (perkiraan 30%) Anda baru saja mempertimbangkan kolom 1 lalu apa yang dilakukan lift dengan 3,63?

— Nickool

1

Ya Tuhan! Saya mengerti kesalahan saya bahwa 30% tidak berhubungan dengan 29%, 30% berarti 3/10 3 kolom pertama Data! Sekarang saya benar-benar memahaminya: Saya sangat senang !!!!! terima kasih>: D <

— Nickool

1

1000 m a i l i n g a l l 1000 c u s t o m e r s a n d w e e x p e c t 8

$1000 mailing all 1000 customers and we expect 8% response, or 80 customers. Using the model, if we mail the top 30% based on their score (for a cost of 30% * 1000 *$

300) t h e n w e e x p e c t t o g e t 60

$300) then we expect to get 60% of the response (60% * 80 = 48 customers). Thus, the mail cost is only$

1000 - g e t - 80 - c u s t o m e r s v s S p e n d -

$1000-get-80-customers vs Spend-$

1

@ user1700890 Bagan teratas sering diberi label bagan perolehan kumulatif, sedangkan bagan bawah tidak sama dengan bagan lift kumulatif (di mana lift tidak pernah lebih rendah dari 1) tetapi membagi data menjadi sepuluh nampan terpisah.

— RobertF

3

Lift chart mewakili rasio antara respons model vs tidak adanya model itu. Biasanya, itu diwakili oleh persentase kasus di X dan berapa kali respon lebih baik di kapak Y. Misalnya, model dengan lift = 2 pada titik 10% berarti:

Tanpa model yang mengambil 10% dari populasi (tanpa urutan karena tanpa model) proporsi y = 1 akan menjadi 10% dari total populasi dengan y = 1.
Dengan model kita mendapatkan 2 kali proporsi ini, yaitu, kita berharap untuk mendapatkan 20% dari total populasi dengan y = 1.Dalam label char X mewakili data orderd oleh prediksi. 10% pertama adalah 10% prediksi teratas

— pengguna lain
sumber

3

Angkat tidak lain adalah rasio Keyakinan terhadap Keyakinan yang Diharapkan. Dalam bidang aturan asosiasi - "Rasio pengangkatan yang lebih besar dari 1,0 menyiratkan bahwa hubungan antara anteseden dan konsekuensinya lebih signifikan daripada yang diharapkan jika dua set independen. Semakin besar rasio angkat, semakin signifikan hubungan tersebut. " Sebagai contoh-

jika database supermarket memiliki 100.000 transaksi point-of-sale, di mana 2.000 termasuk item A dan B, dan 800 di antaranya termasuk item C, aturan asosiasi "Jika A dan B dibeli, maka C dibeli dengan cara yang sama trip, "memiliki dukungan 800 transaksi (atau 0,8% = 800 / 100.000), dan kepercayaan 40% (= 800 / 2.000). Salah satu cara untuk berpikir tentang dukungan adalah bahwa itu adalah probabilitas bahwa transaksi yang dipilih secara acak dari database akan berisi semua item dalam anteseden dan konsekuensinya, sedangkan kepercayaan adalah probabilitas bersyarat bahwa transaksi yang dipilih secara acak akan mencakup semua item dalam akibatnya, mengingat bahwa transaksi mencakup semua item dalam anteseden.

Dengan menggunakan contoh di atas, Keyakinan yang diharapkan, dalam hal ini, berarti, "kepercayaan diri, jika membeli A dan B tidak meningkatkan kemungkinan membeli C." Ini adalah jumlah transaksi yang termasuk konsekuensinya dibagi dengan jumlah total transaksi. Misalkan jumlah total transaksi untuk C adalah 5.000. Dengan demikian Keyakinan yang Diharapkan adalah 5.000 / 1.0000 = 5%. Untuk contoh supermarket, Lift = Percaya Diri / Perkiraan yang Diperkirakan = 40% / 5% = 8. Oleh karena itu, Angkat adalah nilai yang memberi kita informasi tentang peningkatan probabilitas pada saat itu (akibatnya) mengingat bagian if (anteseden). inilah tautan ke artikel sumber

— Arpit Sisodia
sumber

2

Angkat hanyalah ukuran untuk mengukur pentingnya aturan

itu ukuran untuk memeriksa apakah aturan ini ada dalam daftar secara acak atau kami harapkan

Lift = Percaya Diri / Percaya Diri yang Diharapkan

— Abdul Wahab
sumber

0

Katakanlah kita menggunakan contoh toko kelontong yang menguji validitas aturan asosiasi yang memiliki anteseden dan konsekuen (misalnya: "Jika pelanggan membeli roti, mereka juga akan membeli mentega").

Jika Anda melihat semua transaksi, dan memeriksa satu secara acak, probabilitas bahwa transaksi tersebut mengandung konsekuensinya adalah "Perkiraan Kepercayaan". Jika Anda melihat semua transaksi yang mengandung anteseden, dan memilih transaksi acak dari ini, probabilitas bahwa transaksi itu akan mengandung konsekuensinya adalah "Keyakinan". "Angkat" pada dasarnya perbedaan antara keduanya. Dengan lift, kita dapat memeriksa hubungan antara dua item yang memiliki kepercayaan diri tinggi (jika kepercayaan rendah maka lift pada dasarnya tidak relevan).

Jika mereka memiliki kepercayaan diri yang tinggi dan daya angkat yang rendah, maka kita masih tahu barang tersebut sering dibeli bersama tetapi kita tidak tahu apakah akibatnya terjadi karena anteseden atau jika itu hanya kebetulan (mungkin mereka berdua dibeli bersama sering karena mereka Keduanya produk yang sangat populer tetapi tidak memiliki hubungan satu sama lain).

Namun, jika kepercayaan dan daya angkat sama-sama tinggi, maka kita dapat mengasumsikan bahwa konsekuensi terjadi karena anteseden. Semakin tinggi lift yang didapat, semakin rendah kemungkinannya bahwa hubungan antara kedua item tersebut hanya kebetulan. Dalam istilah matematika:

Lift = Percaya Diri / Percaya Diri yang Diharapkan

Dalam contoh kita, jika kepercayaan aturan kita tinggi dan liftnya rendah, itu berarti bahwa banyak pelanggan membeli roti dan mentega, tetapi kita tidak tahu apakah itu karena hubungan khusus antara roti dan mentega atau jika roti dan mentega hanya barang-barang populer secara individual dan fakta bahwa mereka sering muncul di gerobak kelontong bersama hanya kebetulan. Jika kepercayaan pada aturan kami tinggi dan liftnya tinggi, ini menunjukkan korelasi yang cukup kuat antara anteseden dan konsekuensinya, yang berarti bahwa kita dapat beranggapan bahwa pelanggan membeli mentega karena fakta bahwa mereka membeli roti. Semakin tinggi liftnya, semakin percaya diri kita dalam hubungan ini.

— Andrew
sumber