Saya menjalankan beberapa tes pada format penyimpanan yang tersedia dengan Hive dan menggunakan Parquet dan ORC sebagai opsi utama. Saya memasukkan ORC sekali dengan kompresi default dan sekali dengan Snappy.
Saya telah membaca banyak dokumen yang menyatakan Parquet menjadi lebih baik dalam kompleksitas ruang / waktu dibandingkan dengan ORC tetapi pengujian saya berlawanan dengan dokumen yang saya lalui.
Mengikuti beberapa detail data saya.
Table A- Text File Format- 2.5GB
Table B - ORC - 652MB
Table C - ORC with Snappy - 802MB
Table D - Parquet - 1.9 GB
Parket adalah yang terburuk sejauh kompresi untuk meja saya diperhatikan.
Pengujian saya dengan tabel di atas menghasilkan hasil sebagai berikut.
Operasi penghitungan baris
Text Format Cumulative CPU - 123.33 sec
Parquet Format Cumulative CPU - 204.92 sec
ORC Format Cumulative CPU - 119.99 sec
ORC with SNAPPY Cumulative CPU - 107.05 sec
Jumlah operasi kolom
Text Format Cumulative CPU - 127.85 sec
Parquet Format Cumulative CPU - 255.2 sec
ORC Format Cumulative CPU - 120.48 sec
ORC with SNAPPY Cumulative CPU - 98.27 sec
Rata-rata operasi kolom
Text Format Cumulative CPU - 128.79 sec
Parquet Format Cumulative CPU - 211.73 sec
ORC Format Cumulative CPU - 165.5 sec
ORC with SNAPPY Cumulative CPU - 135.45 sec
Memilih 4 kolom dari rentang tertentu menggunakan klausa where
Text Format Cumulative CPU - 72.48 sec
Parquet Format Cumulative CPU - 136.4 sec
ORC Format Cumulative CPU - 96.63 sec
ORC with SNAPPY Cumulative CPU - 82.05 sec
Apakah itu berarti ORC lebih cepat dari Parquet? Atau ada sesuatu yang dapat saya lakukan untuk membuatnya bekerja lebih baik dengan waktu respons kueri dan rasio kompresi?
Terima kasih!