Kami menggunakan alat SQL Server PDW untuk gudang data kami. Salah satu meja di gudang kami adalah meja yang direplikasi dengan sekitar 20 juta baris. Sebagai bagian dari proses ETL kami, kami perlu kedaluwarsa catatan lama dari dimensi ini; namun, kami melihat bahwa memperbarui beberapa catatan (<100) membutuhkan waktu lebih dari 1 jam untuk menyelesaikan. Inilah yang ingin saya tingkatkan jika saya bisa.
Secara alami, salah satu opsi yang saya pikirkan adalah mengubah Dimensi ini dari Digandakan menjadi Didistribusikan. Pengujian saya menunjukkan bahwa itu akan memperbaiki masalah dengan proses ETL yang lama (dari 1,5 jam turun menjadi 30 detik) tetapi semua gabungan terhadap versi Terdistribusi dari dimensi ini akan terpengaruh karena gabungan hampir tidak pernah didasarkan pada distribusi yang sama kolom. Ketika saya melihat rencana pelaksanaan beberapa pertanyaan ini, saya biasanya melihat operasi ShuffleMove atau BroadcastMove .
Jadi pertanyaan saya kepada guru PDW di sini adalah:
Apakah ada hal lain yang dapat dilakukan untuk meningkatkan kinerja memperbarui catatan dalam versi replikasi Dimensi ini?
Sekali lagi, pindah ke tabel Terdistribusi tampaknya bukan solusi terbaik karena akan memengaruhi ratusan pertanyaan SQL yang sudah ditulis dan laporan yang dikembangkan oleh orang lain.