Kemungkinan lima anak di kelas yang sama memiliki nama yang sama

Di forum penamaan bayi, calon orang tua mengulangi beberapa versi Ketakutan Jennifer mereka sepanjang waktu: "Saya tidak ingin anak saya menjadi salah satu dari 5 di kelasnya dengan namanya." Masalahnya, tidak ada nama yang mendekati popularitas semacam itu lagi, dan bahkan pada puncak kegemaran Jennifer, Anda tidak mendapatkan lima dari mereka di kelas. Saya ingin semacam jawaban bagi orang tua ini tentang betapa tidak mungkinnya kebetulan pengulangan nama itu.

Dengan menggunakan data nama bayi Administrasi Sosial yang luas ( https://www.ssa.gov/oact/babynames/limits.html ), bisakah seseorang memberi tahu saya cara mengetahui peluang kelas sekolah dasar di AS memiliki lima anak-anak dengan nama yang sama? (Untuk kesederhanaan, dengan "nama yang sama" Maksudku ejaan yang sama, dan dengan "kelas sekolah" Maksudku semua anak lahir di tahun yang sama.) Saya tidak menentukan ukuran kelas, tetapi pasti harus lebih besar dari 4 . :-)

probability combinatorics

— JPmiaou
sumber

Posting tentang nama bayi adalah tema yang berulang di blog Andrew Gelman. Di salah satu posting yang saya temukan di situsnya ia tidak membahas pertanyaan spesifik Anda. Dia terhubung ke "blog nama bayi" di mana Anda mungkin lebih beruntung mendapatkan jawaban. andrewgelman.com/2005/09/07/baby_name_blog

— Mike Hunter

Saya pikir Anda dapat merangkai sesuatu menggunakan distribusi multinomial dengan probabilitas keberhasilan mengatakan, dua puluh nama pertama diekstraksi dari data sensus seperti ini .

— Antoni Parellada

Apakah SSA memberikan data tentang jumlah anak yang lahir dengan nama? Saya hanya mencari informasi tentang peringkat yang jelas membuang beberapa informasi berguna.

— Sycorax berkata Reinstate Monica

@AntoniParellada Saya pikir realitas situasinya bahkan lebih halus: karena sistem sekolah AS sangat dipisahkan oleh pendapatan dan ras, saya pikir statistik nasional akan memiliki korespondensi yang buruk dengan ruang kelas yang sebenarnya.

— Sycorax berkata Reinstate Monica

Ketika saya masih seorang siswa di sekolah dasar (kecil), kami memiliki tiga Johns di kelas yang sangat kecil (saya pikir anak laki-laki dan perempuan yang digabungkan hanya sekitar 14). Satu tahun kami dikombinasikan dengan tahun di atas untuk membuat satu kelas ukuran penuh ... dan mendapat John keempat. Sekarang John cukup umum tetapi tidak terlalu umum. (Dalam hal masalah aslinya, tiga akan hampir sama menjengkelkannya dengan lima). Kemungkinan nama tertentu diduplikasi berkali-kali akan sangat rendah, tetapi kemungkinan beberapa nama muncul beberapa kali akan jauh lebih tinggi.

— Glen_b -Reinstate Monica

Jawaban:

Semua data dapat ditemukan di sini . Setiap nilai dalam tabel mewakili probabilitas yang diberikan sampel 25-orang dari lokasi itu dan tahun kelahiran, 5 dari mereka akan berbagi nama.

Metode : Saya menggunakan Binomial PDF pada masing-masing nama untuk menemukan probabilitas bahwa setiap kelas 25-orang akan memiliki 5 orang yang berbagi nama:

n = class size
k = 5,6,...,n 
p_i = (# of name[i]'s) / (total # of kids)

P_{n} (5 + k i d s s h a r e n a m e) = \sum_{\forall n a m e s} \sum_{k = 5}^{n} (\binom{n}{k}) p_{i}^{k} (1 - p_{i})^{n - k}

$P_n(5+\ kids\ share\ name) = \sum_{\forall\ names}\sum_{k=5}^n{n \choose k}p_i^k(1-p_i)^{n-k}$

Misalnya, jika ada total 4.000.000 anak-anak, dan 21.393 Emily, maka probabilitas bahwa ada 5 Emily di setiap kelas dengan 25 siswa adalah Binomial (25, 5, 0.0053) = 0,0000002. Menjumlahkan semua nama tidak memberikan jawaban yang pasti, karena dengan Prinsip Penyertaan / Pengecualian , kita juga harus memperhitungkan kemungkinan memiliki beberapa kelompok yang terdiri dari 5 orang yang berbagi nama. Namun, karena probabilitas ini untuk semua tujuan praktis hampir nol, saya menganggapnya diabaikan, dan dengan demikian . $P(\bigcup A_i) \approx \sum P(A_i)$

Pembaruan: Seperti banyak orang tunjukkan, ada perbedaan yang cukup besar dari waktu ke waktu, dan antara negara. Jadi saya menjalankan program yang sama, berdasarkan NEGARA DENGAN NEGARA, dan seiring waktu. Berikut adalah hasilnya (probabilitas nasional adalah merah, masing-masing negara hitam):

Yang menarik, Vermont (negara bagian asal saya) secara konsisten merupakan salah satu tempat yang paling memungkinkan terjadinya hal ini selama beberapa dekade terakhir.

— David C
sumber

Apakah Anda bisa menjelaskan bagaimana Anda mendapatkan angka-angka ini? Anda tidak perlu terlalu banyak membodohi - saya memang memiliki gelar sarjana dalam matematika, dan saya tahu di mana harus mencari tahu - tapi saya benar-benar ingin tahu jenis alasan yang sebenarnya mengarah pada probabilitas (sebagai gantinya dari menghela nafas).

— JPmiaou

Ini mengasumsikan bahwa nama diberikan secara acak dengan probabilitas yang sama , apa yang tidak benar . Pengalaman nyata juga menunjukkan bahwa ada lebih banyak kelas dengan anak-anak memiliki nama yang sama dengan 1 dalam 200!

— Tim

Saya mendapatkan hasil yang sedikit berbeda, tetapi mereka dekat. Ini tidak layak dibahas, karena variasi geografis dan temporal dalam hasilnya sangat besar. Jawabannya telah berubah oleh dua urutan besarnya sejak 1910 dan bervariasi berdasarkan urutan besarnya di antara negara-negara. Karena hampir tidak ada kelas sekolah dasar yang diambil dari seluruh AS, model pemilihan acak dari daftar nama nasional tidak tepat.

— whuber

(1) Lihatlah tahun-tahun lain dalam file nasional yang Anda unduh. (2) Lihatlah file status yang tersedia di situs yang sama.

— whuber

Ya, grafik probabilitas dari waktu ke waktu sangat dramatis: grafik itu mulai menurun tajam pada tahun 1980. Tetapi variasi negara memang sangat besar, seperti yang bisa diduga: nama bervariasi secara geografis dan mereka dikelompokkan secara kuat berdasarkan etnis, pendapatan, dan faktor demografis lainnya. (+1 untuk investigasi panjang Anda ke variasi keadaan dan waktu, BTW.)

— whuber

silakan lihat skrip Python berikut untuk Python2.

Jawaban diilhami oleh jawaban David C.

Jawaban terakhir saya adalah, probabilitas menemukan setidaknya lima Jacobs dalam satu kelas, dengan Jacob menjadi nama yang paling mungkin menurut data dari https://www.ssa.gov/oact/babynames/limits.html "Data Nasional "dari 2006.

Probabilitas dihitung menurut distribusi binomial dengan Jacob-Probability menjadi probabilitas keberhasilan.

import pandas as pd
from scipy.stats import binom

data = pd.read_csv(r"yob2006.txt", header=None, names=["Name", "Sex", "Count"])

# count of children in the dataset:
sumCount = data.Count.sum()

# do calculation for every name:
for i, row in data.iterrows():
    # relative counts of each name being interpreted as probabily of occurrence
    data.loc[i, "probability"] = data.loc[i, "Count"]/float(sumCount)

    # Probabilites being five or more children with that name in a class of size n=25,50 or 100
    data.loc[i, "atleast5_class25"] = 1 - binom.cdf(4,25,data.loc[i, "probability"])
    data.loc[i, "atleast5_class50"] = 1 - binom.cdf(4,50,data.loc[i, "probability"])
    data.loc[i, "atleast5_class100"] = 1 - binom.cdf(4,100,data.loc[i, "probability"])

maxP25 = data["atleast5_class25"].max()
maxP50 = data["atleast5_class50"].max()
maxP100 = data["atleast5_class100"].max()

print ("""Max. probability for at least five kids with same name out of 25: {:.2} for name {}"""
   .format(maxP25, data.loc[data.atleast5_class25==maxP25,"Name"].values[0]))
print
print ("""Max. probability for at least five kids with same name out of 50: {:.2} for name {}, of course."""
   .format(maxP50, data.loc[data.atleast5_class50==maxP50,"Name"].values[0]))
print
print ("""Max. probability for at least five kids with same name out of 100: {:.2} for name {}, of course."""
   .format(maxP100, data.loc[data.atleast5_class100==maxP100,"Name"].values[0]))

Maks. probabilitas untuk setidaknya lima anak dengan nama yang sama dari 25: 4.7e-07 untuk nama Jacob

Maks. probabilitas untuk setidaknya lima anak dengan nama yang sama dari 50: 1.6e-05 untuk nama Jacob, tentu saja.

Maks. probabilitas untuk setidaknya lima anak dengan nama yang sama dari 100: 0,00045 untuk nama Jacob, tentu saja.

Dengan faktor 10 hasil yang sama dengan David C. Terima kasih. (Jawaban saya tidak menjumlahkan semua nama, harus dibahas)

— feinmann
sumber

Jawaban ini tampaknya tidak menjawab pertanyaan tentang kemungkinan beberapa nama muncul lima kali atau lebih di ruang kelas.

— whuber

@feinmann Saya percaya bahwa mengambil jumlah atas semua nama adalah tepat karena kemungkinan memiliki dua set atau lebih dari 5 orang dengan nama yang sama dalam satu kelas hampir nol, dan dapat diabaikan untuk semua tujuan praktis. Yaitu, sesuai dengan Prinsip Penyertaan / Pengecualian , jika kita mengabaikan kemungkinan ini, maka

P (⋃ A_{i}) \approx \sum P (A_{i})

$P(\bigcup A_i) \approx \sum P(A_i)$

— David C

Tidak, Anda belum menjawab pertanyaan saat Anda baru saja merumuskannya. Kemungkinan beberapa nama akan muncul lima kali atau lebih jauh lebih besar daripada peluang maksimum bahwa nama yang diberikan akan muncul lima kali atau lebih.

— whuber

Seperti @whuber tunjukkan, "5 Jacobs" adalah argumen yang lebih lemah dari "5 of some name", tetapi mungkin berguna dalam diskusi nama bayi: "Inilah kemungkinan lima anak dengan nama paling populer. Kamu tidak menggunakan nama paling populer, jadi kemungkinan Anda bahkan lebih kecil. "

— JPmiaou

Ini tidak persis , karena kemungkinannya tidak saling eksklusif: Anda dapat memiliki 5 atau lebih Thomases dan 5 atau lebih Richards ( dan mungkin bahkan 5 atau lebih Henrys) dalam satu kelas. Jadi itu batas atas. @ DavidvidC berpendapat dalam komentar di sini bahwa peristiwa seperti itu memiliki probabilitas yang dapat diabaikan.

— Scortchi