Buku bagus dengan penekanan yang sama pada teori dan matematika


10

Saya telah memiliki cukup banyak kursus tentang statistik selama tahun-tahun sekolah saya dan di universitas. Saya memiliki pemahaman yang adil tentang konsep-konsep, seperti, CI, nilai-p, menafsirkan signifikansi statistik, pengujian berganda, korelasi, regresi linier sederhana (dengan kuadrat terkecil) (model linier umum), dan semua tes hipotesis. Saya telah diperkenalkan dengan banyak dari hari-hari sebelumnya sebagian besar secara matematis. Dan akhir-akhir ini, dengan bantuan buku Intuitif Biostatistik saya telah memahami dan pemahaman yang belum pernah terjadi sebelumnya terhadap teori konseptual yang sebenarnya, saya percaya.

Sekarang, apa yang saya temukan adalah kurangnya pemahaman tentang model pemasangan (memperkirakan parameter untuk model) dan sejenisnya. Secara khusus, konsep seperti estimasi kemungkinan maksimum, model linier umum , pendekatan bayesian untuk statistik inferensial selalu tampak asing bagi saya. Tidak ada cukup contoh atau tutorial atau yang secara konseptual terdengar, seperti yang akan ditemukan pada model probabilistik sederhana atau pada topik (dasar) lainnya di internet.

Saya adalah seorang ahli bioinformatika dan saya bekerja pada data RNA-Seq yang berkaitan dengan hitungan baca mentah untuk menemukan, katakanlah, ekspresi gen (atau ekspresi gen diferensial). Dari latar belakang saya, bahkan jika saya tidak terbiasa dengan model statistik, saya dapat memahami alasan untuk asumsi distribusi poisson dan binomial negatif dan sebagainya .. Tetapi beberapa makalah berurusan dengan model linear umum dan memperkirakan MLE dll. Yang Saya yakin saya memiliki latar belakang yang perlu dipahami.

Saya kira apa yang saya minta adalah pendekatan yang oleh beberapa ahli di antara Anda anggap berguna dan (a) buku yang membantu saya memahami konsep-konsep ini dengan cara yang lebih intuitif (bukan hanya matematika yang keras, tetapi teori yang didukung dengan matematika). Karena saya kebanyakan akan menerapkannya, saya akan puas (saat ini) dengan memahami apa itu dan kemudian, saya bisa kembali ke bukti matematika yang ketat ... Apakah ada yang punya rekomendasi? Saya tidak keberatan membeli lebih dari 1 buku jika topik yang saya minta memang tersebar untuk dicakup dalam sebuah buku.

Terima kasih banyak!


Bisakah Anda merekomendasikan saya beberapa sumber yang baik untuk belajar tentang data RNA-Seq dan tantangan statistik di bidang ini?
Biostat

1
biostat, tentu saja, situs web seqanswers.com adalah sumber yang sangat bagus untuk NGS. Anda bisa mulai dengan berbagai teknologi dan cara kerjanya dari sini: goo.gl/NLuvJ Ini adalah beberapa makalah yang menjelaskan beberapa masalah statistik dengan data NGS. Singkatnya, mereka adalah estimasi varians teknis dan biologis (berkaitan dengan ekspresi gen). 1) Salah satu makalah pertama yang menilai variasi teknis: ncbi.nlm.nih.gov/pubmed/18550803 2) DESeq: alat untuk deteksi ekspresi gen: ncbi.nlm.nih.gov/pubmed?term=DESeq%20simon%20anders
Arun

1
Dikonversi ke CW karena sepertinya banyak saran bagus akan ditawarkan dan tidak ada standar objektif yang jelas untuk memutuskan yang "terbaik" di antara mereka. Saya harap ini akan membuat lebih mudah bagi pembaca untuk memilih banyak balasan juga :-).
whuber

whuber, tentu! masuk akal. Bisakah saya membuat posting wiki komunitas? atau membutuhkan hak moderator?
Arun

Jawaban:


5

Anda akan menemukan segala yang non-Bayesian yang Anda tanyakan tentang Strategi Pemodelan Regresi Frank Harrell . Saya akan meninggalkan rekomendasi Bayesian kepada orang-orang yang lebih berpengetahuan (meskipun saya memiliki Gelman, Carlin, Stern dan Rubin , serta Gilks, Richardson dan Speigelhalter , di rak buku saya). Seharusnya ada beberapa buku biostat Bayesian di pasaran.

Pembaruan: McCullach dan Nelder (1989) adalah buku klasik tentang GLM, tentu saja. Itu adalah terobosan untuk waktunya, tetapi saya merasa agak membosankan, terus terang. Selain itu, itu tidak mencakup tambahan nanti seperti diagnostik sisa, model nol-meningkat, atau ekstensi bertingkat / hirarkis. Hardin dan Hilbe (2007) membahas beberapa hal baru ini dengan rincian yang baik dengan contoh-contoh praktis di Stata (di mana GLM dan ekstensi diimplementasikan dengan sangat baik; Hardin dulu bekerja di Stata Corp menulis banyak dari perintah ini, serta berkontribusi pada penaksir sandwich).


Hai StasK, terima kasih banyak! Saya menemukan satu pada pemodelan regresi akan memenuhi kebutuhan saya. Berapa mereka mencakup GLM? Saya juga melihat bahwa referensi Anda tentang inferensi Bayesian adalah yang standar yang selalu saya rekomendasikan. Menurut Anda, seberapa mudah / sulit mereka untuk mengikuti (seolah-olah levelnya terlalu maju)? Juga, sudahkah Anda melihat buku Generalized linear models ? Salah satu penulis adalah JA Nelder. Juga, saya juga ingin membeli buku ini pada model statistik . Apakah Anda memiliki pemikiran tentang hal ini? Terima kasih!
Arun

Saya belum melihat buku Freedman ini. Ini sangat menarik, meskipun tampaknya agak ringan dalam hal ketelitian, dan saya tidak yakin saya senang dengan itu. (Sebuah buku yang sangat ringan pada matematika yang berbicara tentang regresi tanpa aljabar matriks, tetapi SANGAT mendalam tentang ketelitian ilmiah, Sebagian Besar Tidak Berbahaya Ekonometrika oleh Angrist dan Pischke, dan jika Anda bekerja dengan model sebab-akibat, buku ini adalah suatu keharusan.) Saya tidak Saya benar-benar tahu latar belakang matematika / stat Anda, jadi akan sulit bagi saya untuk menilai apakah buku-buku ini akan sulit. Beberapa buku Bayesian mungkin; mereka cenderung menganggap Anda sudah tahu MLE dan GLM.
Tugas

1
Saya telah memperbarui respons saya untuk menyertakan referensi McCullach dan Nelder.
Tugas

Saya seorang elektronik engr. menjadi ahli bioinformatika. Saya telah memiliki kursus statistik (untuk teori komunikasi), probabilitas dan proses acak, saya merasa nyaman dengan kalkulus (walaupun sedikit berkarat) dan juga aljabar linier. Tentu saja ini sebagian besar tingkat sarjana ... Tujuan saya adalah untuk menjadi suara konseptual (lebih banyak interpretasi geometris, pemahaman tentang metode dan yang paling penting tujuannya) dll ... Tentu saja, saya tidak keberatan dengan matematika, jika itu datang dengan resep-resep ini. Sekali lagi terima kasih atas rekomendasi Anda!
Arun

3

Saya akan merekomendasikan dua buku berikut:

  1. Metode statistik untuk bioinformatika
  2. Unsur-unsur pembelajaran statistik

Buku-buku ini menjelaskan hal-hal yang baik, tetapi bukan hal-hal yang ditanyakan OP.
Tugas

@StasK, bisakah Anda menjelaskan hal-hal yang tidak ada dalam buku-buku di atas?
Biostat

Saya mengajar dari HTF, dan hal-hal yang saya ajarkan darinya adalah tentang fungsi dasar, derajat kebebasan yang efektif, pemilihan model, laso, validasi silang, dll. MLE dan GLM yang diminati OP disebutkan lewat, paling banter. Entah diasumsikan bahwa siswa statistik terbiasa dengan hal-hal ini dari pelatihan statistik umum mereka, atau siswa CS akan menggunakan SVM daripada regresi logistik sebagai reaksi spontan terhadap data hasil biner. Hal-hal Bayesian juga disebutkan hanya sejauh aturan keputusan Bayesian optimal, dalam beberapa hal; tidak ada MCMC atau konjugasi, katakanlah.
Tugas

Sudahkah Anda membaca buku "Metode statistik untuk bioinformatika"?
Biostat

@ biostat, tidak, saya belum. Saya tidak bekerja dalam bioinformatika, tetapi saya tahu bahwa ini adalah dunia yang sedikit berbeda. Jadi saya tidak bisa membuat rekomendasi yang masuk akal. Menurut pendapat saya, cabang biostatistik yang berhubungan dengan model seperti GLM, GEE, longitudinal dan survival memiliki lebih banyak kesamaan dengan ekonometrik (jadi katakanlah buku Wooldridge tentang model data cross-sectional dan panel mungkin merupakan rekomendasi yang baik untuk beberapa orang biostat yang bekerja dengan model-model ini) dibandingkan dengan genetika statistik, kontrol tingkat kesalahan kekeluargaan, dan penggalian data, yang tampaknya menjadi bidang keahlian Anda.
Tugas
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.