剛剛宣布放寬計算及內(nèi)存限制,Aster提供R語言分析能力之后,Teradata迅速出手,宣布由Teradata實驗室收購了Revelytix和Hadapt。前者主要致力于Hadoop上的數(shù)據(jù)管理,而Hadapt則是一家專注SQL-on-Hadoop的公司。顯然,Teradata構(gòu)建統(tǒng)一數(shù)據(jù)架構(gòu)方面正在加速奔跑。
事實上,結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)通過傳統(tǒng)的SQL分析和新的分析算法(時間序列、路徑、圖和文字)正在產(chǎn)生新的價值。為了最高效率、最優(yōu)存儲、分析和應(yīng)用的成本,大數(shù)據(jù)的技術(shù)鏈條正在分層。在Teradata天睿公司大中華區(qū)大數(shù)據(jù)事業(yè)部總監(jiān)孔宇華的分析中,統(tǒng)一數(shù)據(jù)架構(gòu)可以分為三層:Teradata整合數(shù)據(jù)倉庫、以Aster為主的探索分析平臺,以及以Hadoop為主的數(shù)據(jù)平臺 。
Teradata天睿公司大中華區(qū)大數(shù)據(jù)事業(yè)部總監(jiān) 孔宇華
Hadoop自然是為了實現(xiàn)快速數(shù)據(jù)加載和獲取,數(shù)據(jù)過濾和預處理以及在線歸檔;Aster則是數(shù)據(jù)發(fā)現(xiàn)、快速假設(shè)校驗和試錯、模式監(jiān)測,實現(xiàn)路徑、圖、時間序列分析;Teradata數(shù)據(jù)倉庫是實現(xiàn)戰(zhàn)略智能、預測分析和操作型智能。
這也是業(yè)內(nèi)比較認可的技術(shù)分層模式。通過三個平臺的整合,來滿足更多行業(yè)深入的數(shù)據(jù)分析需求。
以醫(yī)療行業(yè)為例,要實現(xiàn)對病人住院情況進行分析,需要在數(shù)據(jù)平臺上復查住院治療數(shù)據(jù),并通過運用Aster中的時間序列路徑函數(shù),聚集函數(shù)以及Sigma值函數(shù),識別一個病人從住院到出院的所有治療程序以及為其提供醫(yī)療服務(wù)的醫(yī)生,進而在Teradata中生成時間、地域、交叉、醫(yī)療效果等可視化分析圖譜。而通過對美國一家醫(yī)院肺炎患者的相關(guān)分析并指導業(yè)務(wù)改進,“降低了10%的住院時間,節(jié)省了5000萬美元”。孔宇華表示。
同樣可分享的案例還有運營商、銀行、零售、電商、高科技制造等。而回到技術(shù)上,整合數(shù)據(jù)倉庫,無論是在共享相關(guān)性、一致性和整合數(shù)據(jù),還是快速部署新應(yīng)用,形成業(yè)務(wù)視圖等方面都較為成熟。與之相對應(yīng)的是,最有技術(shù)挑戰(zhàn)的是數(shù)據(jù)平臺和探索平臺。
這兩者在技術(shù)發(fā)展上有重疊,也各有側(cè)重。對Teradata而言,就是如何有效利用Hadoop,并在其上通過Aster實現(xiàn)挖掘和分析。
在孔宇華看來,Aster和Hadoop同樣是MPP架構(gòu),但在存儲,運算引擎以及界面方面都有較多的差異,這決定兩者所擅長任務(wù)的差別(如圖)。
Aster和Hadoop的區(qū)別(點擊看大圖)
在Hadoop基礎(chǔ)上進行創(chuàng)新并不鮮見。但能夠在企業(yè)級市場擁有如此多引擎的并不多。Aster的優(yōu)勢就在于此。以Aster SQL-Graph引擎為例,相比Hadoop Giraph或者Google相關(guān)產(chǎn)品,Aster SQL-Graph的優(yōu)勢在于:
圖并行架構(gòu)
通用目標的BSP 框架
無內(nèi)存綁定,高可擴展
易于開發(fā)使用的APIs
面向頂點編程的API
構(gòu)建用戶自定義圖函數(shù)的SDK 和 IDE
預定義的圖函數(shù)
開箱即用的函數(shù),適合圖并行執(zhí)行
和現(xiàn)有平臺集成能力
和Aster關(guān)系存儲、文件存儲、外部數(shù)據(jù)源的
數(shù)據(jù)一起工作
和其它分析引擎集成 (SQL, SQL-MR)
其它企業(yè)服務(wù)
不止如此,Aster對R的支持已經(jīng)進入企業(yè)級標準。這與趨勢相符。Rexer Analytics咨詢公司調(diào)查顯示,70%的調(diào)查對象稱他們正在使用R語言。數(shù)據(jù)顯示,從2010年開始到2013年,使用R的人群是陡然劇增的。
但R也有不得不面對的挑戰(zhàn)。如R分散于各節(jié)點或各服務(wù)器,各節(jié)點或各服務(wù)器單獨運行,盡管有利于行的獨立分析處理,例如模型評分,但并不利于分析功能所需要的所有數(shù)據(jù),例如模型搭建等。要突破開源R語言的限制,整合Aster和R,實現(xiàn)企業(yè)級分析需求,需要更多技術(shù)優(yōu)化:
孔宇華表示:“Teradata Aster R以軟件數(shù)據(jù)包形式,實現(xiàn)開源R語言的大規(guī)模并發(fā),這對數(shù)據(jù)分析人員而言,更具優(yōu)勢。”
從Hadoop中讀取數(shù)據(jù),在Teradata數(shù)據(jù)倉庫或Teradata Aster數(shù)據(jù)庫中智能地運用多種異構(gòu)處理引擎的功能進行數(shù)據(jù)分析,形成可視化報告,進而帶動業(yè)務(wù)洞察和創(chuàng)新。這個技術(shù)架構(gòu)已經(jīng)極為流暢,對Teradata而言,更重要的挑戰(zhàn)是如何盡快在更多行業(yè)落地,驅(qū)動數(shù)據(jù)分析變革。