Mencari opsi untuk ETL Spasial (Ekstrak, Transformasi, Muat)?


33

Saya tertarik dengan pro dan kontra dari berbagai alat ETL spasial (ekstrak, transformasi, memuat). Jika Anda telah menggunakan barang-barang yang tercantum di sini (atau menambahkan milik Anda), saya mencari pendapat dan pengalaman Anda. Secara khusus saya ingin melihat perbandingan kegunaan dari:

Tidak perlu memberikan ulasan tentang SEMUA perangkat lunak yang disebutkan. Jika Anda berpengalaman dengan bahkan satu maka itu akan sangat bermanfaat dalam membuat keputusan tentang arah mana yang harus dituju.

Contoh: Saya mencari untuk membuat fungsi konversi skema yang akan memungkinkan saya untuk memilih lapisan input, membuat terjemahan, dan output ke skema baru yang telah ditentukan sebelumnya. Secara optimal, setelah membuat skrip terjemahan, saya ingin memiliki bentuk interaktif di mana saya dapat "memetakan" bidang di lapisan input saya ke lapisan keluaran (yaitu- Lapisan keluaran akan memiliki bidang yang disebut "Alamat", apa namanya di lapisan input?)

Beberapa disebutkan dalam T&J di Alat apa yang tersedia untuk mengunggah data gis ke basis data?

Dan inilah beberapa artikel terkait yang saya temukan.

Jawaban:


17

Pertanyaan ini telah dikonversi ke Wiki Komunitas dan wiki dikunci karena ini adalah contoh pertanyaan yang mencari daftar jawaban dan tampaknya cukup populer untuk melindunginya dari penutupan. Itu harus diperlakukan sebagai kasus khusus dan tidak boleh dipandang sebagai jenis pertanyaan yang didorong pada ini, atau situs Stack Exchange, tetapi jika Anda ingin berkontribusi lebih banyak konten untuk itu maka jangan ragu untuk melakukannya dengan mengedit jawaban ini .


Saya hanya akan berbicara tentang apa yang saya lihat dalam konteks profesional. Seorang siswa saya bekerja dengan perusahaan yang ditugasi untuk menerima, memvalidasi, dan mengintegrasikan data spasial dalam jumlah besar, dari sumber terkenal (TeleAtlas) ke dalam GIS mereka. Dia menggunakan beberapa alur kerja menggunakan FME, melakukan verifikasi dan tranformasi yang sangat rumit, dari satu format ke format lainnya, seperti pemilihan fitur, verifikasi topologi, penghapusan duplikat, dll. Alur kerja kemudian dapat memproses kumpulan data yang masuk secara otomatis.

Saya berada di juri untuk laporan percobaan viva (maaf, google traduction "soutenance de rapport de stage"), di mana siswa menggambarkan alur kerja FME lain seperti ini, tetapi kali ini untuk memvalidasi kumpulan data regional yang dikirim ke tingkat nasional untuk integrasi ke database risiko nasional. Perbedaan utama adalah bahwa dalam contoh terakhir ini dataset berada dalam format file yang sangat beragam, raster dan vektor, skala, dan gaya.

Terakhir, saya menguji Spatial Data Integrator, ETL open source berdasarkan Talend Open Studio. Fitur-fiturnya banyak, namun kurang dari FME, tapi saya pikir perbedaan utamanya ada pada dokumentasi dan keramahan pengguna dari penciptaan alur kerja. Saya sering dipaksa untuk memodifikasi sumber kode java dari komponen alur kerja. Tetapi itu adalah versi SDI yang lebih lama, dan kekurangan yang saya jelaskan di sini agak biasa dengan proyek sumber terbuka pada awalnya, dan kita tidak dapat membandingkan pada tingkat yang sama perangkat lunak yang diasah dengan baik dan pesaing muda open source gratis.


24

Untuk proyek terbaru yang bekerja dengan beberapa GB data spasial, saya memulai pemuatan / proyeksi data dengan FME. Itu bekerja dengan baik, tetapi ada kurva belajar.

Pada akhir proyek saya menggunakan skrip Python untuk mengotomatiskan proses pemeriksaan ulang. FME dapat dituliskan, tetapi jika Anda memiliki dasar-dasar Python mengapa mempersulit hal-hal lebih lanjut? Python memberi Anda fleksibilitas lengkap dan dengan setiap skrip impor ditulis, keterampilan Python Anda meningkat.

Saya menemukan paket-paket Python berikut ini sangat berharga ketika bekerja dengan transformasi data:

Jika Anda memiliki latar belakang pengembang / pemrograman saya akan merekomendasikan menggunakan Python, jika Anda lebih suka bekerja dengan GUI (yang juga dapat menghasilkan gambar yang bagus untuk dokumentasi) Saya akan merekomendasikan FME.


11

Saya suka open-source tetapi FME dengan mudah menang melawan ETL opensource sebaik yang saya tahu. Ini sebenarnya cukup murah untuk pemeliharaan dan dukungan juga (setidaknya dibandingkan dengan sebagian besar solusi korporat lain yang kami miliki untuk beberapa hal).

Jika Anda mencari terjemahan antara format maka OGR dapat melakukannya (dengan beberapa perpipaan ke GDAL untuk transformasi). Tentu saja, itu baris perintah .

Untuk pemodelan visual di luar yang tercantum dalam komentar "kemungkinan duplikat", mereka sedang mengerjakan pembuat model QGIS / SEXTANTE; bukti video konsep: https://www.youtube.com/watch?v=LTUu-I2ouqU

(Tidak, saya tidak bekerja untuk Safe, saya hanya pelanggan yang relatif senang).


tautan video rusak. Bisakah kamu memperbaikinya?
GeoStoneMarten


6

Saya melakukan perbandingan berbagai alat sekitar setahun yang lalu yang juga mengandung sebagian besar opsi yang disebutkan di utas ini.

Sebagai jawaban yang lebih langsung, saya banyak menggunakan FME karena fleksibilitasnya. Namun, ketika saya bekerja dengan struktur data yang kompleks seperti di CityGML, INSPIRE GML atau model database yang lebih besar, saya menggunakan HALE , aplikasi open source yang dikembangkan untuk ETL dan terutama harmonisasi.

masukkan deskripsi gambar di sini

Saat ini (pada versi 2.9.0) dibandingkan dengan FME (2014 SP1) sebagai berikut:

  • HALE memiliki jumlah format yang lebih rendah (HALE: 20, FME 200) dan transformer (HALE: 30+, FME: lebih dari 400), tetapi dukungan yang sangat baik untuk semua dialek XML / GML
  • Pratinjau HALE hasil transformasi secara interaktif dalam tampilan peta dan tabel, dan memvalidasi output secara langsung
  • HALE umumnya jauh lebih cepat, karena konteks lokal untuk setiap atribut dipertahankan, menghemat banyak FeatureMergers, misalnya
  • HALE adalah Open Source dan dalam penggunaan produksi sejak 2010
  • HALE menggunakan UI pemetaan deklaratif, yang mengarah ke jumlah input pengguna yang diperlukan lebih rendah dibandingkan dengan pendekatan prosedural

Perhatikan bahwa saya telah berada di tim HALE selama beberapa tahun.


Bagaimana menurut Anda tumpukan hari ini vs FME? Khusus untuk umpan data web dan geoRSS?
Dr.YSG

@ Dr.YSG pemeliharaan hale diambil alih oleh wetransform GmbH pada 2015, jadi sekarang ada tim khusus di belakang pengembangannya. Ada perkembangan substansial dalam empat tahun terakhir. Perubahan didokumentasikan dalam catatan rilis GitHub. Ini mendukung pemrosesan data JSON / GeoJSON. GeoRSS adalah format XML sederhana yang menggunakan kembali beberapa bagian GML, sehingga didukung penuh juga. Untuk secara otomatis memproses umpan GeoRSS, Anda ingin melihat hale-cli (antarmuka baris perintah dan API lainnya).
tr_xsdi

5

Jika Anda melihat tautan duplikat blah238, Anda menemukan informasi lebih lanjut. Saya akan mengatakan bahwa Talend Open Studio dan Pentaho GeoKettle adalah solusi open source paling menonjol yang dapat dipilih. Dari dua target Talend ini lebih dari sekedar ETL dan GeoKettle sedikit lebih mudah digunakan sejauh yang saya baca.

Kotamadya saya akan memberikan GeoKettle untuk menulis dialek GML yang disatukan oleh asosiasi Swedia dari otoritas dan daerah setempat (SALAR) dan kami membutuhkan format ini untuk mengirimkan geodata ke berbagai tujuan komersial.

Saya percaya GeoKettle memiliki dukungan untuk OGR / GDAL dari versi 2.0.


5

FME mungkin adalah produk terbaik untuk digunakan di ruang ini. Setelah itu GDAL / OGR. Produk open source lain di ruang ini adalah geokettle - http://www.spatialytics.org/projects/geokettle/ meskipun saya tidak pernah menggunakannya dalam kemarahan (cukup beruntung memiliki kedua produk lain yang disebutkan).

Jika tidak ada opsi umum yang berfungsi, Anda mungkin ingin menggunakan alat konversi tertentu.


3

Digunakan Geokettle secara religius untuk proyek kecil kurva belajar tinggi kecuali jika Anda pernah menggunakan UI Eclipse ... Sangat tangguh karena dikompilasi melawan GDAL1.10 mendukung semua jenis geo ... Yang saya sukai adalah dukungannya untuk data yang tersimpan dan data melalui layanan ... Saya menggunakannya untuk membuat ulang dan menyinkronkan set data server ArcGIS pada instance postgis lokal melalui ESRI json ke GeoJSON ... Alur kerja dapat membangun dalam kondisi dan validasi mengaturnya untuk permintaan # objekid dan berdasarkan pada kompilasi csv yang telah ditentukan sebelumnya untuk mengulang permintaan posting untuk 500 fitur sekaligus tergantung pada permintaan pertama dapat mengkonsolidasikan semua permintaan menjadi satu file geojson, jalankan ogr2ogr untuk memuat ke postgis bahkan postgis yang dituliskan skrip untuk menjalankan vakum dan indeks dengan itu ... Tidak berafiliasi hanya sebuah kipas

Anda dapat menjalankannya dan memetakan alur kerja pada desktop gui dan menggunakan alat server pentahos untuk mengaturnya di Hadoop dan menjalankannya sebagai skrip atau tugas cron.


3

QGIS (setidaknya sejak versi 2.6 saat ini) sekarang juga memiliki pembangun model terintegrasi. Melalui kotak alat ini, Anda dapat mengakses kumpulan algorythms (GDAL, GRASS, SAGA, vectortools, dll). Anda juga dapat menambahkan skrip Anda sendiri.

Saya harus mengakui bahwa saya belum menggunakannya secara luas, tetapi jika saya mencari pembuat model, saya akan menganggapnya layak untuk diselidiki.


0

[PERINGATAN: Promosi serampangan untuk produk yang saya tangani]

Kami telah mengerjakan alat untuk melakukan ETL. Mirip dengan FME, tetapi dirancang untuk tugas-tugas yang lebih sederhana dan membutuhkan lebih sedikit keahlian untuk digunakan. Beberapa detail dapat ditemukan di https://www.geoactive.it hanya mencari informasi tentang Data Dragon. Aplikasi ini menggunakan GDAL / OGR di bagian belakang dan kami mendorong penambahan yang kami buat kembali ke GDAL / OGR.

Penggunaan komersial mengharuskannya untuk dibeli, tetapi kami memiliki lisensi akademik yang tersedia secara gratis, jadi jika Anda ingin menggunakannya untuk belajar, silakan pesan saya dan saya akan memberi Anda beberapa perincian lebih lanjut.

Ini ada di dalamnya tahap rilis awal sehingga masih ada beberapa bug kecil dll jadi harap lembut dengan kami.

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.