您當前位置：首頁 > 互聯(lián)網(wǎng) > Teradata Aster在Hadoop和R上的進展

Teradata Aster在Hadoop和R上的進展

來源：程序員人生發(fā)布時間：2014-09-29 08:00:00 閱讀次數(shù)：2080次

剛剛宣布放寬計算及內(nèi)存限制，Aster提供R語言分析能力之后，Teradata迅速出手，宣布由Teradata實驗室收購了Revelytix和Hadapt。前者主要致力于Hadoop上的數(shù)據(jù)管理，而Hadapt則是一家專注SQL-on-Hadoop的公司。顯然，Teradata構(gòu)建統(tǒng)一數(shù)據(jù)架構(gòu)方面正在加速奔跑。

構(gòu)建統(tǒng)一數(shù)據(jù)架構(gòu)

事實上，結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)通過傳統(tǒng)的SQL分析和新的分析算法（時間序列、路徑、圖和文字）正在產(chǎn)生新的價值。為了最高效率、最優(yōu)存儲、分析和應(yīng)用的成本，大數(shù)據(jù)的技術(shù)鏈條正在分層。在Teradata天睿公司大中華區(qū)大數(shù)據(jù)事業(yè)部總監(jiān)孔宇華的分析中，統(tǒng)一數(shù)據(jù)架構(gòu)可以分為三層：Teradata整合數(shù)據(jù)倉庫、以Aster為主的探索分析平臺，以及以Hadoop為主的數(shù)據(jù)平臺 。

Teradata天睿公司大中華區(qū)大數(shù)據(jù)事業(yè)部總監(jiān) 孔宇華

Hadoop自然是為了實現(xiàn)快速數(shù)據(jù)加載和獲取，數(shù)據(jù)過濾和預處理以及在線歸檔；Aster則是數(shù)據(jù)發(fā)現(xiàn)、快速假設(shè)校驗和試錯、模式監(jiān)測，實現(xiàn)路徑、圖、時間序列分析；Teradata數(shù)據(jù)倉庫是實現(xiàn)戰(zhàn)略智能、預測分析和操作型智能。

這也是業(yè)內(nèi)比較認可的技術(shù)分層模式。通過三個平臺的整合，來滿足更多行業(yè)深入的數(shù)據(jù)分析需求。

以醫(yī)療行業(yè)為例，要實現(xiàn)對病人住院情況進行分析，需要在數(shù)據(jù)平臺上復查住院治療數(shù)據(jù)，并通過運用Aster中的時間序列路徑函數(shù)，聚集函數(shù)以及Sigma值函數(shù)，識別一個病人從住院到出院的所有治療程序以及為其提供醫(yī)療服務(wù)的醫(yī)生，進而在Teradata中生成時間、地域、交叉、醫(yī)療效果等可視化分析圖譜。而通過對美國一家醫(yī)院肺炎患者的相關(guān)分析并指導業(yè)務(wù)改進，“降低了10%的住院時間，節(jié)省了5000萬美元”。孔宇華表示。

同樣可分享的案例還有運營商、銀行、零售、電商、高科技制造等。而回到技術(shù)上，整合數(shù)據(jù)倉庫，無論是在共享相關(guān)性、一致性和整合數(shù)據(jù)，還是快速部署新應(yīng)用，形成業(yè)務(wù)視圖等方面都較為成熟。與之相對應(yīng)的是，最有技術(shù)挑戰(zhàn)的是數(shù)據(jù)平臺和探索平臺。

在Hadoop基礎(chǔ)上發(fā)揮Aster優(yōu)勢

這兩者在技術(shù)發(fā)展上有重疊，也各有側(cè)重。對Teradata而言，就是如何有效利用Hadoop，并在其上通過Aster實現(xiàn)挖掘和分析。

在孔宇華看來，Aster和Hadoop同樣是MPP架構(gòu)，但在存儲，運算引擎以及界面方面都有較多的差異，這決定兩者所擅長任務(wù)的差別（如圖）。

Aster和Hadoop的區(qū)別（點擊看大圖）

在Hadoop基礎(chǔ)上進行創(chuàng)新并不鮮見。但能夠在企業(yè)級市場擁有如此多引擎的并不多。Aster的優(yōu)勢就在于此。以Aster SQL-Graph引擎為例，相比Hadoop Giraph或者Google相關(guān)產(chǎn)品，Aster SQL-Graph的優(yōu)勢在于：

圖并行架構(gòu)
通用目標的BSP 框架
無內(nèi)存綁定，高可擴展
易于開發(fā)使用的APIs
面向頂點編程的API
構(gòu)建用戶自定義圖函數(shù)的SDK 和 IDE
預定義的圖函數(shù)
開箱即用的函數(shù)，適合圖并行執(zhí)行
和現(xiàn)有平臺集成能力
和Aster關(guān)系存儲、文件存儲、外部數(shù)據(jù)源的
數(shù)據(jù)一起工作
和其它分析引擎集成 (SQL, SQL-MR)
其它企業(yè)服務(wù)

突破開源R語言的限制

不止如此，Aster對R的支持已經(jīng)進入企業(yè)級標準。這與趨勢相符。Rexer Analytics咨詢公司調(diào)查顯示，70%的調(diào)查對象稱他們正在使用R語言。數(shù)據(jù)顯示，從2010年開始到2013年，使用R的人群是陡然劇增的。

但R也有不得不面對的挑戰(zhàn)。如R分散于各節(jié)點或各服務(wù)器，各節(jié)點或各服務(wù)器單獨運行，盡管有利于行的獨立分析處理，例如模型評分，但并不利于分析功能所需要的所有數(shù)據(jù)，例如模型搭建等。要突破開源R語言的限制，整合Aster和R，實現(xiàn)企業(yè)級分析需求，需要更多技術(shù)優(yōu)化：

通過Aster MPP架構(gòu)運行開源R語言，實現(xiàn)高效并行分析
放寬內(nèi)存及數(shù)據(jù)處理限制，保證大規(guī)模并發(fā)
利用Aster Discovery Portfolio功能增強R語言分析能力
通過整合超過100項 Aster Discovery Portfolio分析功能和 5000多種R工具包

孔宇華表示：“Teradata Aster R以軟件數(shù)據(jù)包形式，實現(xiàn)開源R語言的大規(guī)模并發(fā)，這對數(shù)據(jù)分析人員而言，更具優(yōu)勢。”

從Hadoop中讀取數(shù)據(jù)，在Teradata數(shù)據(jù)倉庫或Teradata Aster數(shù)據(jù)庫中智能地運用多種異構(gòu)處理引擎的功能進行數(shù)據(jù)分析，形成可視化報告，進而帶動業(yè)務(wù)洞察和創(chuàng)新。這個技術(shù)架構(gòu)已經(jīng)極為流暢，對Teradata而言，更重要的挑戰(zhàn)是如何盡快在更多行業(yè)落地，驅(qū)動數(shù)據(jù)分析變革。

生活不易，碼農(nóng)辛苦
如果您覺得本網(wǎng)站對您的學習有所幫助,可以手機掃描二維碼進行捐贈
程序員人生

------分隔線----------------------------

上一篇 移動支付依賴全產(chǎn)業(yè)鏈合作騰訊、浦發(fā)等發(fā)起支付守護計劃

下一篇 Supercell下一城：《海島奇兵》續(xù)寫芬蘭手游傳奇

分享到:

------分隔線----------------------------

為碼而活

積分：4237

15粉絲

7關(guān)注

欄目熱點

日本搞逼视频_黄色一级片免费在线观看_色99久久_性明星video另类hd_欧美77_综合在线视频

Teradata Aster在Hadoop和R上的進展

構(gòu)建統(tǒng)一數(shù)據(jù)架構(gòu)

在Hadoop基礎(chǔ)上發(fā)揮Aster優(yōu)勢

突破開源R語言的限制