Saya akan mencoba menjawab pertanyaan Anda, tetapi sebelum saya ingin mencatat bahwa menggunakan istilah "dataset besar" menyesatkan, karena "besar" adalah konsep relatif . Anda harus memberikan perincian lebih lanjut. Jika Anda berurusan dengan data tawaran , maka fakta ini kemungkinan besar akan memengaruhi pemilihan alat , pendekatan , dan algoritme yang disukai untuk analisis data Anda . Saya harap pemikiran saya berikut tentang analisis data menjawab sub-pertanyaan Anda. Harap perhatikan bahwa penomoran poin saya tidak cocok dengan penomoran sub-pertanyaan Anda. Namun, saya percaya bahwa itu lebih baik mencerminkan alur kerja analisis data umum , setidaknya, bagaimana saya memahaminya.
1) Pertama, saya pikir Anda harus memiliki setidaknya beberapa jenis model konseptual dalam pikiran (atau, lebih baik, di atas kertas). Model ini harus memandu Anda dalam analisis data eksplorasi Anda (EDA) . Kehadiran variabel dependen (DV) dalam model berarti bahwa dalam fase pembelajaran mesin Anda (ML) nanti dalam analisis Anda akan berurusan dengan yang disebut ML terawasi, sebagai lawan dari ML tanpa pengawasan tanpa adanya DV yang diidentifikasi.
2) Kedua, EDA adalah bagian yang sangat penting. IMHO, EDA harus mencakup beberapa iterasi untuk menghasilkan statistik deskriptif dan visualisasi data , saat Anda memperbaiki pemahaman Anda tentang data. Tidak hanya fase ini akan memberi Anda wawasan berharga tentang dataset Anda, tetapi juga akan memberi makan fase penting Anda selanjutnya - pembersihan dan transformasi data . Hanya membuang data mentah Anda ke dalam paket perangkat lunak statistik tidak akan memberikan banyak - untuk analisis statistik yang valid , data harus bersih, benar, dan konsisten . Ini seringkali merupakan bagian yang paling memakan waktu dan tenaga, tetapi sangat penting. Untuk detail lebih lanjut tentang topik ini, baca makalah bagus ini:http://vita.had.co.nz/papers/tidy-data.pdf (oleh Hadley Wickham) dan http://cran.r-project.org/doc/contrib/de_Jonge+van_der_Loo-Introduction_to_data_cleaning_with_R.pdf (oleh Edwin de Jonge dan Mark van der Loo).
3) Sekarang, seperti yang Anda harapkan dilakukan dengan EDA serta pembersihan dan transformasi data, Anda siap untuk memulai beberapa fase yang lebih terlibat secara statistik. Salah satu fase tersebut adalah exploratory factor analysis (EFA) , yang akan memungkinkan Anda untuk mengekstrak struktur yang mendasari data Anda. Untuk dataset dengan sejumlah besar variabel, efek samping positif dari EFA adalah pengurangan dimensionalitas . Dan, sementara dalam arti itu EFA mirip dengan analisis komponen utama (PCA)dan pendekatan pengurangan dimensi lain, saya pikir EFA lebih penting karena memungkinkan untuk memperbaiki model konseptual Anda dari fenomena yang data Anda "jelaskan", sehingga masuk akal dari dataset Anda. Tentu saja, selain EFA, Anda dapat / harus melakukan analisis regresi serta menerapkan teknik pembelajaran mesin , berdasarkan temuan Anda di fase sebelumnya.
Akhirnya, catatan tentang perangkat lunak . Menurut pendapat saya, keadaan saat ini dari paket perangkat lunak statistik pada titik sedemikian sehingga hampir semua paket perangkat lunak utama memiliki penawaran fitur yang sebanding. Jika Anda belajar atau bekerja di organisasi yang memiliki kebijakan dan preferensi tertentu dalam hal perangkat lunak, maka Anda dibatasi olehnya. Namun, jika itu tidak terjadi, saya sungguh-sungguh akan merekomendasikan perangkat lunak statistik open source , berdasarkan kenyamanan Anda dengan bahasa pemrograman yang spesifik , kurva belajar dan perspektif karir Anda . Platform pilihan saya saat ini adalah Proyek R, yang menawarkan perangkat lunak statistik yang matang, kuat, fleksibel, luas, dan terbuka, bersama dengan ekosistem paket, pakar, dan penggemar yang luar biasa. Pilihan bagus lainnya termasuk Python , Julia dan perangkat lunak open source khusus untuk memproses data besar , seperti Hadoop , Spark , database NoSQL , WEKA . Untuk lebih banyak contoh perangkat lunak sumber terbuka untuk penggalian data , yang mencakup statistik umum dan spesifik dan perangkat lunak ML, lihat bagian ini dari halaman Wikipedia: http://en.wikipedia.org/wiki/Data_mining#Free_open-source_data_mining_software_and_applications .
UPDATE: Lupa menyebutkan Rattle ( http://rattle.togaware.com ), yang juga merupakan perangkat lunak GUI berorientasi-sumber terbuka yang sangat populer untuk penambangan data.