[Kafka] Apache Kafka 指南

Intro Kafka – wikipedia Kafka 採用分散式架構實現了高性能的 Logging 與 Messaging 功能。與 RabbitMQ 相比,Kafka 採用 Pull Model,允許 Consumer 根據自身處理能力主動拉取資料,且支援訊息重覆拉取與留存 (Retention),這使得資料不僅能被即時處理,還具備了事後回溯與批次分析的能力。 分散式架構與演進 在早期的 Apache Kafka 架構中,ZooKeeper 扮演著關鍵的「外部大腦」角色,負責管理 Cluster 的元數據(Metadata)、選舉 Controller 以及記錄 Partition 的狀態。然而,隨著數據量級的提升,這種「雙系統」架構產生了元數據同步延遲與維護複雜度的瓶頸。 為了優化效能,Kafka 自 2.8 版本引入了 KRaft (Kafka Raft) 模式,並在 3.x 版本後趨於成熟。KRaft […]

[BigData] 大數據(巨量資料)相關工具與基礎

引言 Big Data已經紅了一陣子了,近期搭上Machine learning,更凸顯Big Data技術的底層基礎重要性。 軟體工具 Apache Hadoop Hadoop生態系: SQL Tools 開源的SQL on Hadoop 工具比較 Apache Spark 與Hadoop的搭配方式: Big Data 新寵兒 Apache Spark 系列 – Spark 與 Hadoop 初次見面篇 AWS Amazon EMR 分散式架構資料處理軟體機群部屬精靈。 Amazon Redshift 一種支援SQL,屬於大量平行處理架構(Massive Parallel Processing,MPP)的資料倉儲。 列式存儲 資料壓縮 […]