概述
數據倉庫為企業提供了分析和報表功能,是商務智能的中流砥柱。不過,隨著大數據時代的來臨,網站日志、用戶行為數據、社交媒體、傳感器等等在云端產生了海量非結構化數據,為了分析海量數據,與云端數據交互獲取更強的競爭力,給傳統數據倉庫帶來了巨大挑戰。
伴隨著Hadoop/Spark大數據平臺的成熟,越來越多的企業開始采用Hadoop/Spark作為企業數據中心來彌補傳統數據倉庫,對弱結構化或者非結構化數據進行分析,或者作為ETL功能為數據倉庫提供結構化數據。
為了幫助企業在大數據時代更好地獲得競爭優勢,百度智能云提供了云端的數據倉儲解決方案,介紹如何在數據倉庫和Hadoop/Spark大數據平臺中選型,以及如何運用云計算帶來的收益,為企業搭建現代數據倉庫平臺提供指南。
背景
數據分析是通過收集原始數據、處理后得到有用信息、然后進行分析以獲取洞察力的一個過程,最終目的是輔助決策。數據分析的例子有很多,比如網站通過分析用戶的行為數據來了解客戶的傾向以推薦產品、供電局通過分析電表的數據來提高能源效率等。
為了更好地支持數據分析,數據技術慢慢演化成面向日常事務處理的OLTP和針對統計分析決策的OLAP。
MPP架構的數據倉庫是典型的OLAP應用,通過ETL過程把數據倉儲在統一的平臺,并提供交互式查詢幫助企業做出決策,是商務智能(Business Intelligence)的中流砥柱。
隨著Hadoop和Spark技術的崛起,普通技術人員都能夠通過廉價硬件組建集群,存放大量原始數據并通過大規模并行框架處理數據,并且在上層慢慢演化出Hive、Spark SQL這樣的OLAP功能,也能完成數據倉儲的任務。
那么問題來了:
數據倉庫和Hadoop/Spark大數據平臺如何選擇?
云端的數據倉庫服務和Hadoop/Spark托管服務有什么好處?
方案
現代數據倉庫
關系數據倉庫托管服務Palo和Hadoop/Spark托管服務BMR的有機組合才是數據倉儲最佳解決方案:
Palo

其中:
結構化、弱結構化、非結構化存儲的原始數據可以復制到BMR集群中。
結構化數據通過ETL載入Palo中。
通過Hive或者Spark SQL交互式查詢BMR中的數據,用來做原型測試或者即席查詢。這些組件支持運行時定義表模式(Schema on Read),方便處理弱結構化數據。非結構化數據可以通過MapReduce或Spark加工成結構化數據。
變形完成的結構化數據載入Palo,作為企業唯一真實版本(Single Version of the Truth),幫助企業部門之間協作。
通過SQL與Palo通訊,使用BI工具進行即席查詢或者交互式分析,或者產生數字面板提供自動報表,以獲取洞察力。
大數據時代的數據倉儲,應該能夠同時處理關系型數據和非關系型數據,小數據與大數據,一個都不能少,而BMR和Palo正是百度智能云大數據平臺給出的答案。
傳統的數據倉庫或者Hadoop集群建設,需要經過采購硬件、部署軟件、開發運維等步驟,周期冗長,而且無法隨著業務動態伸縮。相比之下,BMR和Palo都是云端的全托管服務,用戶在幾分鐘內便可以創建集群,而無須考慮運維,節省IT人員的成本。同時,托管服務都支持動態伸縮集群,可根據業務大小調節集群,按使用量付費。總之,IT支出下降,凸顯云端托管服務的優勢。
無縫集成BI工具
秉承開源開放的原則,BMR、Palo可以輕松與業界著名的BI工具的無縫集成,使得自助式分析與報表變得異常簡單。
數據服務
百度智能云對數據倉儲提供了完整的收集、存儲、倉儲、應用四個步驟的服務:
收集:方便快捷地把各種類型的數據收集到云端。除了公網上傳數據,海量數據可以使用硬盤快遞服務,此外還有日志服務和物聯網IoT服務可以選擇。
存儲:把不同類型的數據存儲到相應的服務以便進一步處理。比如對象存儲BOS是支持HDFS接口的文件存儲服務;RDS支持MySQL和SQL Server的關系型數據庫服務。
倉儲:把數據清理、變形、優化以后存儲關系型數據倉庫Palo,或者以更直接形式放在以Hadoop/Spark為平臺的數據湖上,以便高效地進行數據分析。
應用:使用商務智能工具如Qlik、Tableau等與BMR或者Palo交互,交互式查詢、產生報表、或者生成數字面板供企業內分享。
參考架構如下:
Palo

選擇我們
我們提供業界領先的數據倉儲解決方案:
依托百度技術:百度搜索收錄全世界超過萬億網頁、承載中國網民每天幾十億次的請求,大數據技術支撐20多個用戶過億產品以及百萬企業客戶。2013年百度建成全球最大Hadoop集群,2014年百度大數據處理能力BaiduSort獲得國際排序大賽冠軍。
全托管云服務:托管服務讓用戶聚焦業務而不是修復缺陷和運營,而按需購買、快速發布、彈性擴容、高可用等特性幫助企業大大降低IT成本。此外,大數據產品在百度內部外部久經考驗,適合企業在生產環境部署。
開源開放:百度智能云提供增強的開源產品托管服務(如BMR)或者接口完全兼容產品(如Palo),方便互聯網公司和傳統企業平滑
點擊百度MapReduce以及百度數據倉庫Palo開始使用。