[Kafka] Apache Kafka 指南

Intro Kafka – wikipedia 主要 API Producer API: 推送資料角色使用 Consumer API: 拉取資料角色使用。實作上是各語言透過 SDK 反覆呼叫 consume 請求,consumer 會向 broker request messages。 Connect API: 一般指 Kafka Connect 中的外部 Storage connector plugin 使用。 Admin API: Kafka admin 角色使用。可以設定 Topic, partition 等。 Kafka Connect […]

[BigData] 大數據(巨量資料)相關工具與基礎

引言 Big Data已經紅了一陣子了,近期搭上Machine learning,更凸顯Big Data技術的底層基礎重要性。 軟體工具 Apache Hadoop Hadoop生態系: SQL Tools 開源的SQL on Hadoop 工具比較 Apache Spark 與Hadoop的搭配方式: Big Data 新寵兒 Apache Spark 系列 – Spark 與 Hadoop 初次見面篇 AWS Amazon EMR 分散式架構資料處理軟體機群部屬精靈。 Amazon Redshift 一種支援SQL,屬於大量平行處理架構(Massive Parallel Processing,MPP)的資料倉儲。 列式存儲 資料壓縮 […]