混合 Data Warehouse 和 Big Data 倉庫的新架構-白红宇

混合 Data Warehouse 和 Big Data 倉庫的新架構

阅读量：4919 次

发布时间：2019-06-11

本文共 1193 字，大约阅读时间需要 3 分钟。

(讀書筆記)

許多公司，儘管想導入 Big Data，仍必須繼續用 Data Warehouse 來管理結構化的營運數據、系統記錄。而 Big Data 的出現，為 Data Warehouse 提供了一個互補的機會，而不是取代後者。

高度結構化的營運資料 (data,數據)，仍然可保留在 Data Warehouse 中；而分散式 (distributed) 的資料，以及會即時改變的資料，則可交由基於 Hadoop 的架構來控制。

圖 1　傳統的 Data Warehouse 和 Data Mart 架構

圖 2　混合 Data Warehouse 和 Big Data 倉庫的新架構

一間公司的客戶、潛在使用者，在網路上和實體上的互動，這些大量產生的數據，傳統的 Data Warehouse 僅能跟蹤交易及營運數據，但卻不能跟蹤網路流量及相關資訊。為了儘可能多保留這些數據，與其建立一個 Data Warehouse 來儲存所有數據，不如用 Hadoop 分散式計算的方式，將數據存放在公司的伺服器上。這樣，公司就能將所有來自「網頁互動」的數據保存下來了。這些數據儲存在運行著 Hadoop 和 MapReduce 的伺服器叢集 (cluster) 中，配合使用 Flume 和 Sqoop 之類的工具，公司的資訊團隊，就能夠將數據從 Hadoop 裡遷移出來，匯入關聯式模型及資料庫中，讓大家用熟悉的傳統 SQL 工具來查詢。

這樣公司就能在發現某些客戶群，希望獲得某些新型態服務時，快速地轉變服務和產品。公司 (線上旅遊網站) 還能夠預測一些趨勢，像是如何適時地調整機票的價格。這些數據中，有一部分仍保留在 Hadoop 環境中，並能保持幾乎「即時」的更新；另有一些數據，經過處理後，已被轉移到了 Data Warehouse 中，這樣他們就可用於和歷史數據進行比對。既有的 Data Warehouse 繼續提供公司業務需要的內容，Hadoop 環境則可以跟蹤每分鐘都發生了什麼事。這種將系統記錄與 Data Warehouse 整合的動態大數據系統，能為公司提供巨大的商機，讓公司能在網路世界中，把即時產生的大量數據、分析結果，應用到公司的業務上。

----------------------------------------------

以上節錄自 Big Data For Dummies 簡體中譯本

Ch11, 設備和大數據倉庫

該書 260頁，圖多，內容偏重講原理、技術簡介、和企業既有應用的整合，幾乎沒程式碼 (適合老闆和主管看)

写给大家看的大数据（簡體中譯本）：

ISBN13：9787115356130

ISBN: 9781118504222

转载于:https://www.cnblogs.com/WizardWu/p/5176827.html

你可能感兴趣的文章