引言
Big Data已經紅了一陣子了,近期搭上Machine learning,更凸顯Big Data技術的底層基礎重要性。
軟體工具
Apache Hadoop
Hadoop生態系:
SQL Tools
Apache Spark
與Hadoop的搭配方式:
Big Data 新寵兒 Apache Spark 系列 - Spark 與 Hadoop 初次見面篇
AWS
Amazon EMR
分散式架構資料處理軟體機群部屬精靈。
Amazon Redshift
一種支援SQL,屬於大量平行處理架構(Massive Parallel Processing,MPP)的資料倉儲。
- 列式存儲
- 資料壓縮
- Zone Maps
Amazon Athena
基本就是SQL查詢S3的工具。
- ANSI SQL
- 格式支援性高
Amazon Kinesis
即時的資料搜集處理服務,它每小時可以從數十萬個來源持續擷取和存放數百 TB 的資料,例如網站點擊流、金融交易、社交媒體饋送、IT 日誌和位置追蹤事件等。