Kafka: API Konsumen vs API Aliran

Question 1

Saya baru-baru ini mulai belajar Kafka dan berakhir dengan pertanyaan-pertanyaan ini.

Apa perbedaan antara Consumer dan Stream? Bagi saya, jika ada alat / aplikasi yang mengonsumsi pesan dari Kafka adalah konsumen di dunia Kafka.
Apa perbedaan Stream karena ini juga menggunakan atau menghasilkan pesan ke Kafka? dan mengapa ini diperlukan karena kami dapat membuat aplikasi konsumen kami sendiri menggunakan API Konsumen dan memprosesnya sesuai kebutuhan atau mengirimkannya ke Spark dari aplikasi konsumen?

Saya melakukan Google dalam hal ini, tetapi tidak mendapatkan jawaban yang bagus untuk ini. Mohon maaf jika pertanyaan ini terlalu sepele.

Question 2

Perbarui 09 April 2018 : Saat ini Anda juga dapat menggunakan ksqlDB , database streaming acara untuk Kafka, untuk memproses data Anda di Kafka. ksqlDB dibangun di atas API Streams Kafka, dan juga dilengkapi dengan dukungan kelas satu untuk "stream" dan "tabel".

apa perbedaan antara API Konsumen dan API Aliran?

Kafka's Streams API ( https://kafka.apache.org/documentation/streams/ ) dibangun di atas klien produsen dan konsumen Kafka. Ini secara signifikan lebih kuat dan juga lebih ekspresif daripada klien konsumen Kafka. Berikut adalah beberapa fitur dari Kafka Streams API:

Mendukung semantik pemrosesan tepat satu kali (Kafka versi 0.11+)
Mendukung pemrosesan stateful (dan juga stateless, tentu saja) yang toleran terhadap kesalahan termasuk streaming join , agregasi , dan windowing . Dengan kata lain, ini mendukung pengelolaan status pemrosesan aplikasi Anda di luar kotak.
Mendukung pemrosesan waktu acara serta pemrosesan berdasarkan waktu pemrosesan dan waktu penyerapan
Memiliki dukungan kelas satu untuk aliran dan tabel , di mana pemrosesan aliran memenuhi database; dalam praktiknya, sebagian besar aplikasi pemrosesan aliran memerlukan aliran DAN tabel untuk mengimplementasikan kasus penggunaannya masing-masing, jadi jika teknologi pemrosesan aliran tidak memiliki salah satu dari dua abstraksi (misalnya, tidak ada dukungan untuk tabel), Anda akan macet atau harus mengimplementasikan sendiri fungsionalitas ini secara manual (semoga beruntung dengan itu...)
Mendukung kueri interaktif (juga disebut 'status yang dapat dikueri') untuk memperlihatkan hasil pemrosesan terbaru ke aplikasi dan layanan lain
Lebih ekspresif: kapal dengan (1) pemrograman gaya fungsional DSL dengan operasi seperti map, filter, reduceserta (2) keharusan gaya Processor API untuk misalnya melakukan kompleks pengolahan acara (CEP), dan (3) Anda bahkan dapat menggabungkan DSL dan Processor API.

Lihat http://docs.confluent.io/current/streams/introduction.html untuk pengenalan yang lebih mendetail namun masih tingkat tinggi tentang Kafka Streams API, yang juga akan membantu Anda memahami perbedaan bagi konsumen Kafka tingkat bawah klien. Ada juga tutorial berbasis Docker untuk Kafka Streams API , yang saya buat di blog awal minggu ini.

Jadi apa bedanya API Aliran Kafka karena API ini juga menggunakan atau menghasilkan pesan ke Kafka?

Ya, API Aliran Kafka dapat membaca data serta menulis data ke Kafka.

dan mengapa ini diperlukan karena kami dapat membuat aplikasi konsumen kami sendiri menggunakan API Konsumen dan memprosesnya sesuai kebutuhan atau mengirimkannya ke Spark dari aplikasi konsumen?

Ya, Anda dapat menulis aplikasi konsumen Anda sendiri - seperti yang saya sebutkan, Kafka Streams API menggunakan klien konsumen Kafka (ditambah klien produsen) itu sendiri - tetapi Anda harus mengimplementasikan secara manual semua fitur unik yang disediakan Streams API . Lihat daftar di atas untuk semua yang Anda dapatkan "gratis". Oleh karena itu, jarang terjadi bahwa pengguna memilih klien konsumen tingkat rendah daripada API Aliran Kafka yang lebih kuat.

Question 3

Komponen Kafka Stream dibangun untuk mendukung transformasi pesan jenis ETL. Berarti untuk input aliran dari topik, mengubah dan output ke topik lain. Ini mendukung pemrosesan waktu nyata dan pada saat yang sama mendukung fitur analitik lanjutan seperti agregasi, windowing, join, dll.

"Kafka Streams menyederhanakan pengembangan aplikasi dengan mengembangkan produsen Kafka dan perpustakaan konsumen dan memanfaatkan kemampuan asli Kafka untuk menawarkan paralelisme data, koordinasi terdistribusi, toleransi kesalahan, dan kesederhanaan operasional."

Di bawah ini adalah fitur arsitektur utama di Kafka Stream. Silakan lihat di sini

Partisi Stream dan Tugas : Kafka Streams menggunakan konsep partisi dan tugas sebagai unit logis dari model paralelisme berdasarkan partisi topik Kafka.
Model Threading: Kafka Streams memungkinkan pengguna mengonfigurasi jumlah utas yang dapat digunakan perpustakaan untuk memparalelkan pemrosesan dalam sebuah instance aplikasi.
Local State Stores : Kafka Streams menyediakan apa yang disebut penyimpanan negara, yang dapat digunakan oleh aplikasi pemrosesan aliran untuk menyimpan dan meminta data, yang merupakan kemampuan penting saat mengimplementasikan operasi stateful
Fault Tolerance: Kafka Streams dibangun di atas kemampuan toleransi kesalahan yang terintegrasi secara native di dalam Kafka. Partisi Kafka sangat tersedia dan direplikasi, jadi ketika data aliran disimpan ke Kafka, itu tersedia bahkan jika aplikasi gagal dan perlu diproses ulang.

Berdasarkan pemahaman saya di bawah ini adalah perbedaan utama yang terbuka untuk saya perbarui jika ada yang hilang atau menyesatkan

Tempat menggunakan Konsumen - Produsen:

Jika ada konsumen tunggal, konsumsi proses pesan tetapi jangan tumpahkan ke topik lain.
Seperti poin 1 jika hanya produser yang memproduksi pesan kita tidak membutuhkan Kafka Stream.
Jika pesan konsumen dari satu cluster Kafka tetapi mempublikasikan ke topik cluster Kafka yang berbeda. Dalam hal ini, Anda bahkan dapat menggunakan Kafka Stream, tetapi Anda harus menggunakan Produser terpisah untuk memublikasikan pesan ke cluster yang berbeda. Atau cukup gunakan mekanisme Kafka Consumer - Producer.
Pemrosesan batch - jika ada persyaratan untuk mengumpulkan pesan atau jenis pemrosesan batch, ada baiknya untuk menggunakan cara tradisional biasa.

Tempat menggunakan Kafka Stream:

Jika Anda menggunakan pesan dari satu topik, ubah dan publikasikan ke topik lain Kafka Stream paling cocok.
Pemrosesan waktu nyata, analitik waktu nyata, dan pembelajaran mesin.
Transformasi stateful seperti agregasi, join window, dll.
Berencana untuk menggunakan penyimpanan negara bagian lokal atau penyimpanan negara bagian yang terpasang seperti Portworx dll.
Mencapai tepat satu semantik pemrosesan dan toleransi kesalahan yang ditentukan otomatis.