[BigData] 大數據(巨量資料)相關工具與基礎

引言

Big Data已經紅了一陣子了,近期搭上Machine learning,更凸顯Big Data技術的底層基礎重要性。


軟體工具

Apache Hadoop

Hadoop生態系:

SQL Tools

開源的SQL on Hadoop 工具比較

Apache Spark

與Hadoop的搭配方式:

Big Data 新寵兒 Apache Spark 系列 - Spark 與 Hadoop 初次見面篇


AWS

Amazon EMR

分散式架構資料處理軟體機群部屬精靈。

Amazon Redshift

一種支援SQL,屬於大量平行處理架構(Massive Parallel Processing,MPP)的資料倉儲。

  • 列式存儲
  • 資料壓縮
  • Zone Maps

Amazon Athena

基本就是SQL查詢S3的工具。

  • ANSI SQL
  • 格式支援性高

Amazon Kinesis

即時的資料搜集處理服務,它每小時可以從數十萬個來源持續擷取和存放數百 TB 的資料,例如網站點擊流、金融交易、社交媒體饋送、IT 日誌和位置追蹤事件等。

Leave a Reply

Your email address will not be published. Required fields are marked *