Buku referensi untuk statistik dengan R - apakah ada dan apa yang harus dikandungnya?


25

Latar Belakang

Ada banyak diskusi tentang ini, jadi saya pikir saya bisa menemukan jawaban saya dari tapak sebelumnya di StackExchange dan dengan googling dengan marah. Setelah menggunakan setengah hari mencoba menemukan hanya satu buku referensi untuk statistik (bio) dengan R, saya benar-benar bingung dan harus menyerah. Mungkin gabungan materi gratis sebenarnya lebih baik daripada buku mana pun yang dapat Anda beli saat ini. Mari kita cari tahu.

Internet penuh dengan literatur gratis yang baik untuk bahasa R , jadi sebenarnya tidak ada gunanya membayar untuk buku biasa-biasa saja, yang akhirnya digunakan sebagai dekorasi kantor sebagian besar waktu. Situs web R mencantumkan buku yang terkait dengan R dan ada banyak di antaranya. Untuk lebih tepatnya: 115. Hanya satu di antaranya yang diiklankan dengan kata-kata " buku referensi statistik mandiri ". Sekarang berusia 8 tahun dan mungkin sudah ketinggalan zaman. Edisi keempat Statistik Terapan Modern dengan S bahkan lebih tua. R Book sering dianggap terlalu mendasar dan tidak direkomendasikan karena kurangnya referensi, kode yang diformat dengan buruk, dan penyelesaian yang ceroboh.

Namun, saya mencari satu buku , yang dapat saya gunakan sebagai referensi mandiri untuk statistik praktis (pertama dan terpenting) dengan R (sekunder). Buku itu harusnya hidup di meja kantor saya, mengumpulkan anotasi, noda kopi, dan sidik jari berminyak alih-alih debu di rak buku. Itu harus menggantikan koleksi pdf gratis yang telah saya gunakan sejauh ini, tidak lupa bahwa R hadir dengan pustaka referensi yang sangat baik. “ Apa pendekatan yang tepat? "," Mengapa? "dan" secara teknis, bagaimana cara kerjanya? "sering kali lebih banyak pertanyaan yang membakar daripada" bagaimana melakukannya dengan R? "

Karena saya seorang ahli ekologi, saya sangat tertarik dengan aplikasi biostatistik. Namun, karena hal-hal ini sering dihubungkan, referensi umum interdisipliner akan menjadi yang paling berharga bagi saya.

Tugas

Jika ada buku seperti itu (saya ragu), berikan nama buku (hanya satu per jawaban) dan ulasan singkat dari buku yang menjelaskan mengapa buku tersebut harus dinamai sebagai buku referensi untuk topik tersebut. Karena pertanyaan ini tidak jauh berbeda dari yang ada, silakan gunakan tapak ini untuk jawaban Anda. Anda juga dapat membuat daftar kekurangan buku sehingga kami dapat mencantumkannya sebagai fitur untuk buku referensi yang ideal.

Pertanyaan saya adalah apa yang seharusnya berisi buku referensi untuk statistik (dari jenis yang paling banyak digunakan) dengan R?

Beberapa pemikiran awal mengikuti fitur-fitur umum (tolong, perbarui):

  • Setebal batu bata
  • Ringkas, tapi bisa dimengerti
  • Diisi dengan angka-angka (dengan kode R yang disediakan)
  • Tabel dan diagram yang mudah dimengerti yang menjelaskan perincian terpenting dari teks
  • Mudah dimengerti, teks deskriptif tentang statistik / metode yang berisi persamaan paling penting.
  • Contoh bagus untuk setiap pendekatan (dengan kode R)
  • Daftar referensi yang luas dan terbaru
  • Jumlah kesalahan pengetikan minimal

Daftar Isi

Karena saya bukan ahli statistik dan perlu buku ini (tidak ada?) Untuk menjawab pertanyaan, sulit bagi saya untuk menulis tentang isinya. Karena The R Book jelas bermaksud menjadi buku referensi untuk statistik dengan R, tetapi sering dikritik, saya menyalin daftar isi dari buku tersebut sebagai titik awal untuk daftar isi untuk buku referensi statistik R standalone. Tugas tambahan: tolong, berikan tambahan, saran, penghapusan, dll untuk daftar isi.

  1. Mulai
  2. Essentials of the R Bahasa
  3. Input Data
  4. Kerangka data
  5. Grafik
  6. Tabel
  7. Matematika
  8. Tes Klasik
  9. Pemodelan Statistik
  10. Regresi
  11. Analisis Varians
  12. Analisis Kovarian
  13. Model Linier Umum
  14. Hitung Data
  15. Hitung Data dalam Tabel
  16. Data Proporsi
  17. Variabel Respon Biner
  18. Model Aditif Umum
  19. Model Efek Campuran
  20. Regresi Non-linear
  21. Model Pohon
  22. Analisis Rangkaian Waktu
  23. Statistik Multivarian
  24. Statistik spasial
  25. Analisis Kelangsungan Hidup
  26. Model Simulasi
  27. Mengubah Tampilan Grafik
  28. Referensi dan Bacaan Lebih Lanjut
  29. Indeks

Apa yang telah dikatakan sebelumnya?

StackExhange berisi beberapa tapak yang meminta statistik dan saran buku R. Buku untuk belajar bahasa R menanyakan tentang buku referensi yang belajar bahasa R tanpa aspek statistik. Seni Pemrograman R diberi peringkat sebagai saran tunggal terbaik. Book to Learn Statistics menggunakan R meminta buku pengantar statistik ideal, yang sebenarnya tidak sama dengan buku referensi. Buku teks statistik Open Source memberi peringkat statistik Multivarian dengan R sebagai alternatif terbaik. Buku apa yang akan Anda rekomendasikan untuk ilmuwan non-statistik? bertanya tentang buku referensi statistik terbaik tanpa menentukan program pilihan.Referensi atau buku tentang simulasi data desain eksperimental dalam skor R mungkin paling dekat dengan pertanyaan saya. Pengantar Pemrograman Ilmiah dan Simulasi Menggunakan R adalah buku yang paling direkomendasikan di sini dan mungkin dekat dengan apa yang saya cari. Namun, buku ini tidak akan cukup sebagai buku referensi tunggal untuk statistik dengan R.

Beberapa saran untuk buku referensi dan kekurangannya

R in Action telah menerima ulasan yang lebih baik daripada The R Book, namun ini sepertinya agak perkenalan .

Desain dan analisis biostatistik menggunakan R: panduan praktis mungkin dekat dengan apa yang saya cari. Ini telah menerima ulasan yang baik , tetapi ternyata ini juga mengandung banyak kesalahan ketik. Selain itu, buku ini tidak berkonsentrasi pada menjelaskan statistik, tetapi lebih memberikan analisis statistik sebagai resep readymade untuk digunakan para peneliti.

Model dan Data Ekologis dalam R melewatkan tingkat pengantar. Ini adalah fitur yang sangat berguna melihat kata "pengantar", skor 43 kejadian dalam daftar buku R , tapi mungkin tidak sepenuhnya memuaskan, jika kita mencari buku referensi untuk statistik ...?

Pengantar Pemrograman Ilmiah dan Simulasi Menggunakan R menerima ulasan yang sangat positif , tetapi terbatas pada simulasi data.

Richiemorrisroe menyarankan bahwa Statistik Terapan Modern dengan S sudah cukup untuk buku referensi statistik mandiri dengan R. Buku ini telah menerima ulasan yang sangat baik ( 1 , 2 ) dan mungkin merupakan kandidat terbaik untuk judul pada saat ini? Versi terbaru keluar 10 tahun yang lalu, yang cukup lama mempertimbangkan pengembangan program.

Dimitriy V. Masterov menyarankan Analisis Data Menggunakan Regresi dan Model Bertingkat / Hirarki . Belum memeriksa buku ini.


Setelah membaca banyak ulasan buku, tampak jelas bahwa buku yang sempurna yang diminta di sini belum ada. Namun, mungkin saja untuk memilih yang cukup dekat. Tapak ini dimaksudkan sebagai wiki komunitas bagi pengguna statistik untuk menemukan buku referensi terbaik yang ada dan sebagai motivasi bagi penulis buku baru dan lama untuk meningkatkan pekerjaan mereka.


3
(+1) untuk ulasan bagus! Namun, tampaknya Anda telah menjawab pertanyaan Anda sendiri dalam pertanyaan Anda sendiri ...
ocram

1
Jika Anda menghabiskan begitu banyak waktu untuk mencari tahu ini, membuat daftar panjang Anda sendiri, dan bahkan garis besar buku seperti itu, mungkin Anda harus menulisnya. Ini adalah rekomendasi yang sering saya berikan pada statistik dan daftar ekonometrika ketika seseorang meminta kertas ulasan yang bagus tentang [BLAH] dan membahas apa yang tidak mereka sukai tentang lima atau sepuluh kertas ulasan yang ada - tulis kertas Anda sendiri di atasnya.
Tugas

Jawaban:


12

Saya pribadi berpikir bahwa Statistik Terapan Modern dengan S-Plus mencentang semua kotak yang telah Anda uraikan. Setiap contoh memiliki kode R, mereka memberikan referensi yang baik ke sumber lain, dan Venables dan Ripley memiliki gaya penulisan yang sangat singkat dan jelas yang sangat saya hargai. Saya cenderung membaca ulang buku itu begitu sering, dan setiap kali saya mendapat lebih banyak dari itu. Tentu saja, jarak tempuh Anda mungkin berbeda.


2
Saya setuju. Saya memiliki banyak buku statistik yang berbasis R, dan MASS4 mungkin yang paling dekat dengan apa yang Anda cari, tetapi di tempat-tempat "singkat" menjadi singkat tidak dapat dibaca dan membutuhkan sebagian besar latar belakang statistik daripada yang saya miliki. Yang mengatakan, saya punya buku hampir 10 tahun dan saya terus kembali ke sana dan belajar hal baru Aku tidak akan membiarkan umurnya membuatmu pergi. Oh, dan sekarang saya sedang melakukan statistik phd :-)
Sean

Saya juga kembali dan kembali ke MASS, yang kedengarannya seperti preferensi yang diungkapkan untuk itu sebagai buku referensi.
Peter Ellis

Apakah versi 1998 MASS jauh berbeda dengan 2003? Ingin tahu apakah perbedaan konten cukup untuk membayar sekitar £ 50 lebih untuk itu.
dugaan

6

Terima kasih atas pertanyaan yang bagus, dan terutama menyusun semua informasi itu. Sayangnya, buku yang Anda gambarkan tidak ada, dan jujur ​​saja, buku itu tidak mungkin ada. Jika yang paling Anda inginkan adalah buku referensi untuk statistik, saya akan mulai dengan buku yang sangat bagus tentang model linier. Rekomendasi saya adalah Kutner et al, memenuhi kriteria lebih besar daripada batu bata baik dalam volume dan massa, sangat komprehensif, jelas, dan dengan banyak contoh. Bahkan, jika Anda menghilangkan persyaratan R, itu cukup banyak dari seluruh daftar Anda. Saya sering merujuknya kembali. Namun, dalam ~ 1500 halaman, itu hanya mencakup model linier - yaitu, regresi, dan ANOVA - ada beberapa bab singkat tentang beberapa topik lain, tetapi Anda benar-benar menginginkan buku-buku lain untuk itu. Berikutnya, saya akan mendapatkan buku referensi statistik terkemuka, pada tingkat yang sesuai untuk Anda, untuk teknik apa pun yang mungkin perlu Anda kerjakan (misalnya, analisis survival, analisis spasial, dll.). Jika buku-buku itu tidak menggunakan R untuk contoh mereka, Anda mungkin ingin mendapatkan buku yang spesifik R, seperti salah satu dari penggunaan-R! buku, tetapi di antara dokumentasi, sketsa, milis R-help, StackOverflow, dan CV, Anda mungkin tidak perlu melakukannya. Jika Anda ingin belajar memprogram dalam R dengan cara yang benar, Anda juga harus mendapatkan salah satu buku itu. Pada titik ini, Anda memiliki setidaknya 4 buku. Maaf, tapi memang begitu. Tidak seorang pun yang bekerja secara luas dengan statistik hanya memiliki satu buku yang mencakup semuanya.


5

Saya kira buku seperti ini tidak ada. Buku yang menurut saya paling dekat adalah Analisis Data Gelman dan Hill Menggunakan Regresi dan Model Multilevel / Hirarki .

Cons:

  • Ini ~ 5 tua dan ditujukan untuk ilmuwan sosial.

  • Tidak memiliki semua yang ada di daftar TOC Anda (tidak ada spasial, pada dasarnya tidak ada pada deret waktu, dll.)

Pro:

  • Ditulis dengan baik

  • Itu punya daftar errata dan TOC di tautan

  • Ini mencakup hal-hal penting seperti data yang hilang, yang tidak ada dalam daftar bernomor Anda.

  • Itu mengenai sebagian besar item di daftar peluru Anda.

  • Banyak grafik dan kode R (beberapa kode Bug untuk multi-level).

  • Semua data / kode tersedia untuk diunduh.


4

Saya bekerja melalui Elemen Pembelajaran Statistik . Buku ini mencakup berbagai teknik yang luar biasa (demikian juga 700+ halaman) tetapi setiap pendekatan dijelaskan dengan jelas dalam cara yang sangat praktis, bukan sangat teoretis. Itu tidak secara eksplisit mengandung apa pun tentang R, namun plot dan grafik dibuat dengan jelas dengan R dan ada paket pada CRAN untuk semua topik yang dibahas. Para penulis semuanya telah terlibat dengan pengembangan R (serta sejumlah teknik pembelajaran mesin modern).


2
Bahkan ada paket R untuk buku itu: ElemStatLearn :-)
chl

3

Saya setuju dengan jawaban yang dipilih saat ini bahwa MASS4 sangat cocok dengan permintaan dan memiliki pengalaman yang sama dengan responden lain dengan kesulitan memenuhi persyaratan tingkat kecanggihan statistik yang cukup tinggi. MASS3 sebenarnya adalah "Buku Rbook" pertama saya dan cukup membantu saya dalam kapasitas itu. Saya memang membeli Crawley's "The R Book" dan merasa tidak memuaskan untuk deskripsi yang tidak akurat dari bahasa R dan menjadi sedikit lebih dari satu set contoh yang dikerjakan yang tampaknya kurang mendalam dari teori statistik.

Namun, dengan berlalunya waktu, saya telah menemukan Harrell "Regresi Modeling Strategies" (RMS) lebih cocok untuk fokus "biostatistik" dari pertanyaan ini serta memiliki kedalaman yang baik. Ini bukan teks pengantar tentang R. Untuk itu orang perlu mencari di tempat lain dan untuk itu saya merekomendasikan salah satu Pengantar Pemrograman Ilmiah dan Simulasi Menggunakan R [ http://www.crcpress.com/product/isbn/9781420068726] atau (meskipun namanya) "R for Dummies" ditulis oleh beberapa kontributor lama untuk tag posting R StackOverflow. Saya hanya memiliki RMS dalam edisi pertamanya ketika lebih berfokus pada S, tetapi sejak saat itu Harrell telah beralih ke R dan sepenuhnya mendukungrms/HmiscDuo paket R. Saya percaya ini memenuhi saran @ gung untuk cakupan khusus di beberapa domain yang terdaftar, meskipun tidak untuk analisis spasial atau model campuran.


1
Saya sangat merekomendasikan RMS dan MASS. Saya tidak dalam biostatistik, tetapi sebagian besar saran di Harrell berguna jauh lebih umum. Saya sering meminta calon mahasiswa penelitian untuk membaca Harrell, atau paling tidak bab 4, dan kemudian sering merekomendasikan MASS sebagai buku umum yang bagus untuk memastikan mereka mengenalnya.
Glen_b -Reinstate Monica

Untuk belajar mandiri secara umum, saya menominasikan "Statistik Teoritis" Cox dan Hinkley 'dan 2 volume Feller "Pengantar Teori Probabilitas". Tapi itu jelas tidak membahas bagian-R dari pertanyaan ini.
DWin

[Para siswa yang saya awasi berada di area di luar statistik, meskipun pekerjaan mereka melibatkan cukup banyak ... MASS dan RMS lebih sering membantu mereka daripada Cox dan Hinkley dan Feller Vol 2, meskipun keduanya - bersama dengan Kendall dan Stuart - sangat berharga untuk latar belakang saya sendiri]
Glen_b -Reinstate Monica

2

Jika Anda ingin menerjemahkan ... (ini adalah buku pendamping dari 4.900 halaman buku teori):

Big R Book

Buku ini (yang saya penulis bersama) adalah kompilasi dari 15 tahun pengalaman konsultasi dan pengajaran di tingkat sarjana dan pascasarjana dan hanya menunjukkan contoh-contoh hal-hal R yang rincian matematika (bukti) diberikan dalam 4.900 halaman saya buku pendamping tempat perhitungan juga dilakukan secara manual dengan nilai numerik (+500 halaman yang akan tersedia di edisi berikutnya). Buku ini juga memberikan kemungkinan untuk memeriksa apakah perangkat lunak memberikan nilai yang benar dan itu jauh lebih menyenangkan daripada membuat perhitungan dengan tangan atau dalam MS Excel tentang mata pelajaran yang biasanya diajarkan di program pascasarjana di sekolah-sekolah Eropa. Tujuan buku ini juga untuk menunjukkan bahwa Anda dapat menggunakan 1 perangkat lunak alih-alih banyak untuk hasil yang sama tanpa biaya (alih-alih menggunakan JMP + Minitab + SPSS + SAS + MATLAB bersama-sama). Buku ini juga menunjukkan kelemahan R (pemeliharaan paket tidak dijamin). Ini juga merupakan ringkasan pertanyaan yang sangat berharga di berbagai forum dan blog R. Gratis dan berwarna!


1
Bisakah Anda juga memberikan "ulasan singkat" yang diminta? Mengapa Anda merekomendasikan buku ini? Apa hal baik (dan buruk) tentang itu?
whuber

Saya salah satu co-auhtor ... tidak terlalu netral untuk ulasan singkat ...
Vincent ISOZ

1
Tidak apa-apa - kami akan berterima kasih untuk mendengar dari Anda apa yang menurut Anda adalah kekuatan buku Anda atau karakterisasi siapa yang akan mendapat manfaat darinya. Dengan mengungkapkan koneksi Anda ke buku (yang penting ), Anda memungkinkan pembaca untuk memperhitungkan itu dalam mengevaluasi apa yang Anda katakan. Saya menduga bahwa banyak pembaca akan memahami bahwa Anda memiliki pengetahuan mendalam tentang buku ini dan akan menghargai apa yang Anda katakan. Tanpa memberikan semacam ulasan, jawaban Anda harus diturunkan ke komentar belaka yang akan mendapatkan perhatian yang relatif sedikit.
whuber
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.