Jawabannya sejauh ini terfokus pada data itu sendiri, yang masuk akal dengan situs ini, dan kekurangannya.
Tapi saya seorang ahli epidemiologi komputasi / matematika oleh kecenderungan, jadi saya juga akan berbicara tentang model itu sendiri untuk sedikit, karena itu juga relevan dengan diskusi.
Dalam pikiran saya, masalah terbesar dengan kertas itu bukan data Google. Model matematika dalam epidemiologi menangani data yang berantakan sepanjang waktu, dan menurut saya masalah dengan hal itu dapat diatasi dengan analisis sensitivitas yang cukup mudah.
Masalah terbesar, bagi saya, adalah bahwa para peneliti telah "menakdirkan diri mereka untuk sukses" - sesuatu yang harus selalu dihindari dalam penelitian. Mereka melakukan ini dalam model yang mereka putuskan sesuai dengan data: model SIR standar.
Secara singkat, model SIR (yang berarti rentan (S) menular (I) pulih (R)) adalah serangkaian persamaan diferensial yang melacak kondisi kesehatan suatu populasi ketika mengalami penyakit menular. Individu yang terinfeksi berinteraksi dengan individu yang rentan dan menginfeksi mereka, dan kemudian seiring waktu beralih ke kategori yang pulih.
Ini menghasilkan kurva yang terlihat seperti ini:
Cantik bukan? Dan ya, ini untuk wabah zombie. Cerita panjang.
Dalam hal ini, garis merah adalah apa yang dimodelkan sebagai "pengguna Facebook". Masalahnya adalah ini:
Dalam model SIR dasar, kelas I pada akhirnya akan, dan tak terhindarkan, mendekati nol .
Itu harus terjadi. Tidak masalah jika Anda memodelkan zombie, campak, Facebook, atau Stack Exchange, dll. Jika Anda memodelkannya dengan model SIR, kesimpulan yang tak terhindarkan adalah bahwa populasi dalam kelas infeksi (I) turun menjadi sekitar nol.
Ada ekstensi yang sangat mudah untuk model SIR yang membuat ini tidak benar - baik Anda dapat meminta orang-orang di kelas (R) pulih kembali ke rentan (S) (pada dasarnya, ini adalah orang-orang yang meninggalkan Facebook berubah dari "Saya jangan pernah kembali "ke" Saya mungkin akan kembali suatu hari nanti "), atau Anda dapat meminta orang baru masuk ke populasi (ini akan menjadi Timmy dan Claire kecil yang mendapatkan komputer pertama mereka).
Sayangnya, penulis tidak cocok dengan model tersebut. Ini, kebetulan, masalah luas dalam pemodelan matematika. Model statistik adalah upaya untuk menggambarkan pola variabel dan interaksinya dalam data. Model matematika adalah pernyataan tentang realitas . Anda bisa mendapatkan model SIR agar sesuai dengan banyak hal, tetapi pilihan Anda untuk model SIR juga merupakan penegasan tentang sistem. Yaitu, sekali itu memuncak, itu menuju ke nol.
Kebetulan, perusahaan internet memang menggunakan model retensi pengguna yang terlihat sangat mirip dengan model epidemi, tetapi mereka juga jauh lebih kompleks daripada yang disajikan di koran.