Big Data – YIDAS Code

[Kafka] Apache Kafka 指南

2022-07-192026-03-30 NickBig Data, MQ

Intro Kafka – wikipedia Kafka 採用分散式架構實現了高性能的 Logging 與 Messaging 功能。與 RabbitMQ 相比，Kafka 採用 Pull Model，允許 Consumer 根據自身處理能力主動拉取資料，且支援訊息重覆拉取與留存 (Retention)，這使得資料不僅能被即時處理，還具備了事後回溯與批次分析的能力。分散式架構與演進在早期的 Apache Kafka 架構中，ZooKeeper 扮演著關鍵的「外部大腦」角色，負責管理 Cluster 的元數據（Metadata）、選舉 Controller 以及記錄 Partition 的狀態。然而，隨著數據量級的提升，這種「雙系統」架構產生了元數據同步延遲與維護複雜度的瓶頸。為了優化效能，Kafka 自 2.8 版本引入了 KRaft (Kafka Raft) 模式，並在 3.x 版本後趨於成熟。KRaft […]

[BigData] 大數據(巨量資料)相關工具與基礎

2017-10-202017-10-20 NickBig Data

引言 Big Data已經紅了一陣子了，近期搭上Machine learning，更凸顯Big Data技術的底層基礎重要性。軟體工具 Apache Hadoop Hadoop生態系： SQL Tools 開源的SQL on Hadoop 工具比較 Apache Spark 與Hadoop的搭配方式： Big Data 新寵兒 Apache Spark 系列 – Spark 與 Hadoop 初次見面篇 AWS Amazon EMR 分散式架構資料處理軟體機群部屬精靈。 Amazon Redshift 一種支援SQL，屬於大量平行處理架構（Massive Parallel Processing，MPP）的資料倉儲。列式存儲資料壓縮 […]