Model untuk memprediksi jumlah tampilan Youtube dari Gangnam Style


73

Video musik PSY "Gangnam style" sangat populer, setelah lebih dari 2 bulan memiliki sekitar 540 juta pemirsa. Saya belajar ini dari anak-anak praremaja saya saat makan malam minggu lalu dan segera diskusi berjalan ke arah apakah mungkin untuk melakukan semacam prediksi tentang berapa banyak penonton akan ada dalam 10-12 hari dan kapan (/ jika) lagu akan melewati 800 juta pemirsa atau 1 miliar pemirsa.

Ini adalah gambar dari jumlah pemirsa sejak diposting: PSY OGS

Berikut adalah gambar dari sejumlah pemirsa video musik No1 "Justin Biever-Baby" dan No2 "Eminem - Love the you you lie" yang keduanya telah ada sejak lama. Justin Eminem

Upaya pertama saya untuk beralasan tentang model ini adalah bahwa itu harus menjadi kurva-S tetapi ini tampaknya tidak sesuai dengan lagu-lagu No1 dan No2 dan juga tidak sesuai bahwa tidak ada batasan berapa banyak penayangan bahwa video musik dapat memiliki, hanya pertumbuhan yang lebih lambat.

Jadi pertanyaan saya adalah: model apa yang harus saya gunakan untuk memprediksi jumlah penonton video musik?


21
+1 karena berhasil mengarahkan percakapan meja makan dari Gangnam ke statistik. Kami membutuhkan orang-orang seperti Anda!
S. Kolassa - Reinstate Monica

4
Apa yang dapat saya tambahkan ke diskusi yang saya harap akan bermanfaat bagi gui11aume atau orang lain yang menulis persamaan untuk mencoba memodelkan ini, adalah bahwa dalam contoh KONY, pengelompokan geografis adalah aspek penting dari penyebaran virus. Fakta bahwa PSY adalah fenomena Korea dan kemudian Asia terlebih dahulu, adalah bagian penting dari cerita ini. Tidak yakin persis bagaimana itu akan dimodelkan, tetapi itu mungkin sebuah petunjuk.

Data mengenai pandangan, komentar, suka dan tidak suka video selama November 2012, dapat ditemukan di docs.google.com/spreadsheet/…
FredrikD

Jawaban:


38

Aha, pertanyaan bagus !!

Saya juga akan secara naif mengusulkan kurva logisitic berbentuk S, tetapi ini jelas tidak cocok. Sejauh yang saya tahu, peningkatan konstan adalah perkiraan karena YouTube menghitung tampilan unik (satu per alamat IP), jadi tidak mungkin ada lebih banyak tampilan daripada komputer.

Kita bisa menggunakan model epidemiologis di mana orang memiliki kerentanan yang berbeda. Untuk membuatnya sederhana, kita dapat membaginya dalam kelompok berisiko tinggi (katakanlah anak-anak) dan kelompok berisiko rendah (katakanlah orang dewasa). Sebut proporsi anak yang "terinfeksi" dan y ( t ) proporsi orang dewasa "terinfeksi" pada waktu t . Saya akan menyebut X jumlah (tidak diketahui) orang dalam kelompok risiko tinggi dan Y jumlah (juga tidak diketahui) orang dalam kelompok risiko rendah.x(t)y(t)tXY

˙ y (t)=r2(x(t)+y(t))(Y-y(t)),

x˙(t)=r1(x(t)+y(t))(Xx(t))
y˙(t)=r2(x(t)+y(t))(Y-y(t)),

r1>r2Yy

x˙(t)=r1x(t)(X-x(t))
y˙(t)=r2x(t),

r1>r2Y-y(t)r2

Sistem ini dipecahkan menjadi

x(t)=XC1eXr1t1+C1eXr1t
y(t)=r2x(t)dt+C2=r2r1catatan(1+C1eXr1t)+C2,

C1C2x(t)+y(t)

0600,000,000x(t)y(t)

x˙(t)=r1x(t)(X-x(t))
y˙(t)=r2,

dan memecahkan ke

x(t)=XC1eXr1t1+C1eXr1t
y(t)=r2t+C2.

x(0)=1t=0C1=1X-11XXC2=y(0)C2=0Xr1r2

X=600,000,000r1=3.66710-10r2=1,000,000

model pertumbuhan gaya Gangnam

Pembaruan: Dari komentar yang saya kumpulkan, Youtube menghitung tampilan (dengan cara rahasianya) dan bukan IP unik, yang membuat perbedaan besar. Kembali ke papan gambar.

Agar sederhana, mari kita asumsikan bahwa pemirsa "terinfeksi" oleh video. Mereka kembali menontonnya secara teratur, sampai mereka membersihkan infeksi. Salah satu model paling sederhana adalah SIR (Susceptible-Infected-Resistant) yang merupakan berikut:

S˙(t)=-αS(t)saya(t)
saya˙(t)=αS(t)saya(t)-βsaya(t)
R˙(t)=βsaya(t)

αβx(t)x˙(t)=ksaya(t)k

Dalam model ini, jumlah penayangan mulai meningkat secara tiba-tiba beberapa waktu setelah timbulnya infeksi, yang tidak terjadi pada data asli, mungkin karena video juga menyebar dengan cara yang tidak viral (atau meme). Saya bukan ahli dalam mengestimasi parameter model SIR. Hanya bermain dengan nilai yang berbeda, inilah yang saya dapatkan (dalam R).

S0 = 1e7; a = 5e-8; b = 0.01 ; k = 1.2
views = 0; S = S0; I = 1;
# Exrapolate 1 year after the onset.
for (i in 1:365) {
   dS = -a*I*S;
   dI = a*I*S - b*I;
   S = S+dS;
   I = I+dI;
   views[i+1] = views[i] + k*I 
}
par(mfrow=c(2,1))
plot(views[1:95], type='l', lwd=2, ylim=c(0,6e8))
plot(views, type='n', lwd=2)
lines(views[1:95], type='l', lwd=2)
lines(96:365, views[96:365], type='l', lty=2)

Ekstrapolasi dari pandangan video Youtube gaya Gangnam

Modelnya jelas tidak sempurna, dan bisa dilengkapi dengan banyak cara. Sketsa yang sangat kasar ini memprediksi satu miliar tampilan di suatu tempat sekitar Maret 2013, mari kita lihat ...


5
(+1) Sebagai pendekatan pertama. Perhatikan bahwa kebijakan YouTube untuk menghitung tampilan tidak dipahami dengan baik mengingat mereka belum mempublikasikan algoritme mereka. Mereka hanya mengatakan: "Tampilan dihitung setiap kali seseorang menonton video di YouTube. Kami tidak mendapatkan yang lebih spesifik daripada ini untuk menghindari upaya penggelembungan jumlah tampilan secara artifisial" (lihat) .

3
@FredrikD terima kasih. Anda masih dapat menghapus 'accept' pada Maret 2013 jika saya salah: D
gui11aume

2
Estimasi parameter model SIR, lihat rsfs.royalsocietypublishing.org/content/2/2/156.full
FredrikD

1
Sepertinya saya akan kehilangan yang satu ini! Mereka mungkin mencapai jutaan bahkan sebelum 2013 ...
gui11aume

2
engadget.com/2012/12/21/gangnam-style-one-billion-views Jadi dunia tidak berakhir tetapi 1 Milyar tampilan telah tercapai hari ini.
DanTheMan

5

Mungkin model yang paling umum untuk meramalkan adopsi produk baru adalah model difusi Bass , yang - mirip dengan jawaban @ gui11aume - memodelkan interaksi antara pengguna saat ini dan yang potensial. Adopsi produk baru adalah topik yang cukup panas dalam peramalan, mencari istilah ini akan menghasilkan banyak info (yang sayangnya saya tidak punya waktu untuk berkembang di sini ...).


ya, itu juga model kandidat. Namun, sepertinya itu mengasumsikan bahwa Anda hanya dapat menjadi pengguna satu kali. Di sini, Anda melihat video beberapa kali jika Anda "terinfeksi".
FredrikD

1
@FredrikD: titik diambil. (Meskipun saya secara pribadi tidak berhasil duduk bahkan melalui "penggunaan" tunggal dari "produk" ini ...) Seharusnya ada generalisasi Bass untuk menangani ini. (Sumbat tak tahu malu :) Simposium Internasional Forecasting tahun depan ada di Seoul, jadi siapa pun harus mempertimbangkan untuk menyajikan model peramalan Gangnam favoritnya di sana! ;-)
S. Kolassa - Reinstate Monica

4

Saya akan melihat kurva pertumbuhan Gompertz .

Kurva Gompertz adalah formula eksponensial ganda 3-parameter (a, b, c) dengan waktu, T, sebagai variabel independen.

Kode R:

gompertz_growth <- function(a=a,b=b,c=c, t) { a*exp(b*exp(c*t)) }

Formula pertumbuhan Gompertz dikenal baik dalam menggambarkan banyak fenomena siklus-hidup di mana pada awalnya pertumbuhan dipercepat, kemudian berangsur-angsur berkurang sehingga menghasilkan kurva sigmoid asimetris yang turunannya lebih curam di sebelah kiri daripada di sebelah kanan puncak. Misalnya, jumlah total artikel di Wikipedia yang juga viral, telah mengikuti kurva pertumbuhan Gompertz (dengan parameter a, b, c) selama bertahun-tahun dengan akurasi tinggi.

Bagan kurva Gompertz: ukuran total dan turunan tingkat pertumbuhannya

Sunting: Jika kurva Gompertz tidak cukup untuk memperkirakan bentuk yang Anda cari, Anda mungkin ingin menambahkan parameter d& θ seperti yang dijelaskan dalam Distribusi Weibull Gompertz Generalized Exponentaited . Perhatikan bahwa makalah ini menggunakan xbukan tuntuk parameter waktu independen. Menariknya, Wikipedia juga memodifikasi perkiraan terbaik mereka dengan menambahkan parameter ke-4 tunggal d, untuk memperhitungkan perbedaan prediksi dari nilai aktual setelah 2012 . Formula kurva 4-param Gompertz yang dimodifikasi adalah:

gompertz_2 <- function(a=A,b=B,c=C,d=D, t) {a * exp(b * exp(c*t) + d*t)}

Fungsi Gompertz dinamai Benjamin Gompertz (1779-1865) , seorang Gauss kontemporer (hanya 2 tahun Gauss 'junior), ahli matematika pertama yang menggambarkannya.


Poin bagus! Namun, yang menjadi tantangan dari model ini adalah sepertinya tidak ada batasnya (lihat No1 dan No2). Artinya, faktor a dalam model juga meningkat dari waktu ke waktu.
FredrikD

Saya akan menantang "Sepertinya tidak ada batasan." Bisakah gaya Gangnam mencapai 1B? 10B? 100B? dilihat? akhirnya tingkat pertumbuhan mendekati nol dan kurva dataran tinggi. Ini sulit untuk melihat ketika Anda berada pada fase pertumbuhan tinggi, seperti kita sekarang dengan Gangnam, tapi tunggu beberapa tahun dan Anda akan menang Gompertz :) Triknya tentu saja, untuk mencari tahu yang benar (a, b, c) parameter untuk kasus khusus ini.
arielf

2
Berikut ini adalah referensi untuk memperkirakan parameter model Gompertz, lihat weibull.com/RelGrowthWeb/…
FredrikD

3

Saya pikir Anda perlu memisahkan fenomena seperti Gangnam Style, yang berutang banyak pada pandangannya sebagai meme / virus, dari Justin Bieber dan Eminem, yang merupakan seniman besar dengan hak mereka sendiri dan yang juga akan menyebar luas dalam lingkungan tradisional - JB atau Eminem akan menjual banyak single juga, saya tidak yakin PSY akan melakukannya.


poin yang bagus. Setelah membaca & mendengarkan wawancara PSY dan tim di belakang "OGS" (Gaya Gangpa Oppa), jelas bahwa mereka sangat mengetahui tombol mana yang harus ditekan untuk menciptakan sesuatu yang viral. Melalui beberapa analisis gambar dari gambar tampilan di atas, sepertinya tidak ada tampilan yang linier hingga sekitar 90 hari setelah diluncurkan, maka PSY muncul di Grand Prix Korea dan jumlah tampilan per unit waktu meningkat.
FredrikD

- dan bagaimana kedua kelas ini berbeda dari "klasik" - lagu-lagu yang mungkin terkenal ketika mereka pertama kali diunggah di YouTube (saya pikir David Bowie)?
abaumann

2

5
Selamat datang di situs ini, @ ProfRoy47. Maukah Anda mengelaborasi sedikit tentang posting ini? Tidak jelas apakah ini sebenarnya jawaban untuk pertanyaan OP / bahwa itu berdiri sendiri. OTOH, itu tidak akan cocok sebagai komentar, & saya pikir ini memiliki bakat untuk berkontribusi pada utas ini. FAQ kami memiliki beberapa diskusi untuk memberikan jawaban pada CV, yang mungkin bermanfaat bagi Anda.
gung - Reinstate Monica

1

Modelnya jelas tidak sempurna, dan bisa dilengkapi dengan banyak cara. Sketsa yang sangat kasar ini memprediksi satu miliar tampilan di suatu tempat sekitar Maret 2013, mari kita lihat ...

Melihat perlambatan dalam pandangan selama seminggu terakhir, tanggal 13 Maret terlihat seperti taruhan yang layak. Mayoritas tampilan baru tampaknya sudah menjadi pengguna yang terinfeksi yang kembali beberapa kali per hari.

Sehubungan dengan melengkapi model Anda, salah satu metode yang peneliti gunakan untuk melacak penyebaran virus adalah memantau mutasi genomnya - kapan dan di mana mutasinya dapat menunjukkan kepada peneliti seberapa cepat virus ditularkan dan menyebar (lihat melacak Virus West Nile di AS) .

Dalam arti praktis, video seperti Gangnam Style dan Party Rock Anthem (oleh grup LMFAO) lebih cenderung 'bermutasi' menjadi parodi, flash mob, tarian pernikahan, remix, dan tanggapan video lainnya daripada kata-kata, Baby Bieber's Baby atau lagu-lagu Eminem.

Para peneliti dapat menganalisis jumlah tanggapan video (dan khususnya parodi) sebagai proxy untuk mutasi. Mengukur frekuensi dan popularitas mutasi ini di awal kehidupan video bisa berguna adalah memodelkan tampilan YouTube seumur hidupnya.


Selamat datang di situs ini, @lucasng. CV ditujukan untuk jawaban yang serius dan faktual untuk pertanyaan substantif (Anda mungkin ingin membaca faq kami ), & Saya pikir OP telah menanyakan hal ini. Jawaban Anda ada di garis batas di sini; Saya pikir itu harus tetap didasarkan pada ide-idenya tentang mutasi dll, tetapi perhatikan bahwa pendapat tentang manfaat video tidak benar-benar erat.
gung - Reinstate Monica

Saya pikir idenya bagus. @ung Benar bahwa itu bukan jawaban untuk OP, tetapi jawaban kedua juga bukan.
gui11aume

@ gung: (Pencarian Google menunjukkan bahwa) lucasng tidak menyatakan pendapat pada bagian yang Anda redacting melainkan mengutip nama grup yang melakukan lagu!
kardinal

1
@ kardinal, terima kasih atas bantuannya. Lucasng, maaf tentang kebingungannya; Saya telah mengembalikan nama grup.
gung - Reinstate Monica
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.