Saya bekerja di kantor di mana SQL Server adalah tulang punggung dari semua yang kami lakukan, dari pemrosesan data hingga pembersihan hingga munging. Kolega saya mengkhususkan diri dalam penulisan fungsi kompleks dan prosedur tersimpan untuk memproses data yang masuk secara metodis sehingga dapat distandarisasi dan digunakan dalam laporan, visualisasi, dan proyek analitik. Sebelum memulai di sini, saya memiliki sedikit pengalaman dengan SQL, selain menulis pertanyaan paling mendasar. Sebagian besar pekerjaan persiapan analisis saya semua dilakukan di R. Bos saya bersikeras bahwa saya meningkatkan keterampilan SQL saya, meskipun tampaknya ada sedikit tugas yang tidak dapat dilakukan lebih efisien dan dengan jauh lebih sedikit baris kode menggunakan R paket-paket seperti dplyr, data.table, dan tidyr (untuk beberapa nama). Pertanyaan saya adalah - apakah ini masuk akal?
Beberapa minggu yang lalu, saya mendapati diri saya dihadapkan pada tugas untuk mendapatkan daftar nama kolom untuk setiap baris dalam tabel yang memenuhi kriteria tertentu dan menyatukannya menjadi vektor string. Ada tenggat waktu yang ketat dan pada saat itu, saya mengalami beberapa penyumbatan dan tidak bisa membungkus kepala saya dengan masalah. Saya bertanya kepada bos saya, yang pada gilirannya meminta rekan saya untuk menulis skrip TSQL untuk menyelesaikan masalah. Ketika dia sedang mengerjakannya, saya menemukan cara untuk melakukannya dalam menulis fungsi yang cukup sederhana dan menerapkannya pada bingkai data. Rekan saya kembali dengan naskahnya sekitar dua jam kemudian. Itu setidaknya 75 baris terdiri dari dua bersarang untuk loop. Saya memintanya untuk memberi tahu ketika sudah selesai berjalan dan dia bilang itu akan memakan waktu beberapa jam. Sementara itu skrip R saya dapat mengulangi ~ 45.000 catatan dalam waktu sekitar 30 detik.
Apakah saya benar berasumsi bahwa R adalah pilihan yang jauh lebih baik untuk membersihkan dan merawat data? Mungkin pengembang SQL di kantor saya tidak kompeten? Saya ingin tahu apakah ada orang yang telah bekerja dengan R dan SQL (atau Python dan SQL dalam hal ini) memiliki pemikiran tentang ini.