阿里云有許多很好的技術(shù),比如負(fù)載均衡SLB,關(guān)系型數(shù)據(jù)庫RDS,云服務(wù)器ECS,開放存儲(chǔ)服務(wù)OSS等。如今又增加了一款重磅云服務(wù)產(chǎn)品:基于飛天的ODPS(Open Data Processing Service),提供數(shù)據(jù)倉庫、數(shù)據(jù)挖掘和其他數(shù)據(jù)應(yīng)用等功能。7月14日,阿里云計(jì)算公司總裁及阿里巴巴集團(tuán)副總裁王文彬(花名菲青)為之站場(chǎng),并稱之為“中國(guó)進(jìn)入大數(shù)據(jù)時(shí)代的里程碑”。
阿里云總裁王文彬(花名菲青)為ODPS站場(chǎng)
從確定自主開發(fā),到2014年1月,阿里云正式發(fā)布ODPS服務(wù),整整五年。阿里云工程師們寫下250萬行代碼,不斷試錯(cuò),不斷優(yōu)化,不斷打磨。如今,對(duì)內(nèi):阿里小微金服(支付寶、小貸、保險(xiǎn)、基金)已經(jīng)全線遷入,數(shù)據(jù)魔方,阿里媽媽廣告聯(lián)盟,廣告搜索,點(diǎn)擊預(yù)測(cè)模型訓(xùn)練,淘寶指數(shù),阿里無線,高德,中信21cn等業(yè)務(wù)都在其上,對(duì)外:藥品電子監(jiān)管系統(tǒng)、華大基因也已采用了ODPS。
ODPS是阿里集團(tuán)30多個(gè)事業(yè)部唯一的大數(shù)據(jù)處理平臺(tái)
更有意思的是,4月,為了更好地對(duì)ODPS平臺(tái)上進(jìn)行算法的調(diào)試、測(cè)試,阿里巴巴舉辦了基于ODPS的天池算法競(jìng)賽(“天池”平臺(tái)基于阿里云ODPS的大數(shù)據(jù)開放平臺(tái),向?qū)W術(shù)界免費(fèi)提供科研數(shù)據(jù)和數(shù)據(jù)處理服務(wù),第一期開放三類科研數(shù)據(jù)集,包括用戶購買成交記錄、商品購買評(píng)論記錄、商品瀏覽日志記錄等,數(shù)據(jù)經(jīng)過脫敏處理,所有數(shù)據(jù)均可由平臺(tái)應(yīng)用者使用)。
競(jìng)賽的題目是:天貓推薦算法大賽開放競(jìng)賽數(shù)據(jù):在天貓,每天都會(huì)有數(shù)千萬的用戶通過品牌發(fā)現(xiàn)自己喜歡的商品,品牌是聯(lián)接消費(fèi)者與商品最重要的紐帶。本屆賽題的任務(wù)就是根據(jù)用戶在天貓的行為日志,建立用戶的品牌偏好,并預(yù)測(cè)他們?cè)趯韺?duì)品牌下商品的購買行為。
各大高校的參賽者在ODPS平臺(tái)上進(jìn)行算法的調(diào)試、測(cè)試。幾個(gè)月下來,成績(jī)斐然。阿里云相關(guān)負(fù)責(zé)人對(duì)CSDN云計(jì)算表示:最優(yōu)秀的算法比天貓本身數(shù)據(jù)預(yù)測(cè)算法效率還高10%!
正是有了這些真實(shí)落地的效果,王文彬才更有信心:“ODPS會(huì)是阿里集團(tuán)30多個(gè)事業(yè)部唯一的大數(shù)據(jù)平臺(tái)。這其中既包含已經(jīng)完全遷入的小微金服,也包含電子商務(wù)(淘寶、天貓、聚劃算、Alibaba.com、1688.com、AliExpress)、智能物流骨干網(wǎng)(菜鳥物流)在內(nèi)。涉及到幾億用戶的數(shù)據(jù),工作量極大,需要慢慢來做。但這一時(shí)間點(diǎn),我相信很快。”
這一計(jì)劃被阿里內(nèi)部稱之為“登月計(jì)劃”。其中還有一些小故事。接近阿里云的都知道:阿里云的云梯1,是基于Hadoop的;而云梯2才是自主開發(fā)的。阿里內(nèi)部對(duì)于二者的技術(shù)爭(zhēng)論由來已久。而大家不知道的是,2013年10月,為了融合阿里小貸和支付寶的數(shù)據(jù),支付寶希望ODPS團(tuán)隊(duì)協(xié)助他們搬家,將支付寶數(shù)倉業(yè)務(wù)從Hadoop機(jī)群搬到ODPS上,這就是“登月1號(hào)項(xiàng)目”。2014年5月,登月1號(hào)項(xiàng)目成功,小微金服的全部數(shù)據(jù)業(yè)務(wù)開始基于ODPS發(fā)展。也正是阿里內(nèi)部對(duì)于“穩(wěn)定性,安全性,服務(wù)能力要求最高”的小微成功遷入,才有了后續(xù)覆蓋搜索、廣告、物流等多個(gè)BU的數(shù)據(jù)統(tǒng)一的計(jì)劃,才有了“ODPS將成為承載阿里集團(tuán)全部數(shù)據(jù)的統(tǒng)一處理平臺(tái)”的實(shí)施。
阿里內(nèi)部對(duì)ODPS評(píng)價(jià)頗高。
“從Oracle到Hadoop,我們解決了海量數(shù)據(jù)如何存儲(chǔ)和分析的問題,阿里的數(shù)據(jù)業(yè)務(wù)不再受制于規(guī)模的瓶頸;從Hadoop到ODPS,更是一次質(zhì)的飛躍,為后續(xù)大數(shù)據(jù)業(yè)務(wù)的開展掃清了障礙。登月計(jì)劃共計(jì)劃了20多個(gè)項(xiàng)目,涉及阿里巴巴和小微金服所有的事業(yè)部,覆蓋集團(tuán)全部數(shù)據(jù)人員,其牽扯人員、資源之多,在集團(tuán)內(nèi)部罕見。登月計(jì)劃的全面啟動(dòng),標(biāo)志著阿里集團(tuán)自研的飛天+ODPS平臺(tái),從功能和性能上已經(jīng)漸漸超越了Hadoop,阿里云的技術(shù)走在了世界前列。”
在阿里云的產(chǎn)品規(guī)劃中,基于飛天,有多類服務(wù):離線的結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)和計(jì)算服務(wù)平臺(tái)――ODPS (Open Data Processing Service),半結(jié)構(gòu)化數(shù)據(jù)的實(shí)時(shí)隨機(jī)讀寫服務(wù)――OTS(Open Table Service),實(shí)時(shí)流數(shù)據(jù)處理服務(wù)――OSPS(Open Stream Processing Service)等。
ODPS的產(chǎn)品、用戶和生態(tài)
談到ODPS能夠處理什么類型的大數(shù)據(jù),阿里云產(chǎn)品經(jīng)理湯子楠表示:“ODPS最擅長(zhǎng)處理結(jié)構(gòu)化數(shù)據(jù),比較擅長(zhǎng)處理半結(jié)構(gòu)數(shù)據(jù),不能處理非結(jié)構(gòu)數(shù)據(jù)(當(dāng)然,最后這點(diǎn)會(huì)通過與開源技術(shù)合作及其他技術(shù)開發(fā)來拓展)。”
具體來看ODPS的產(chǎn)品、用戶和生態(tài):
產(chǎn)品:SQL、MapReduce、BSP、算法包;安全控制、分享機(jī)制
用戶:大企業(yè)――存儲(chǔ)計(jì)算能力服務(wù)化,專注數(shù)據(jù)和業(yè)于務(wù);
生態(tài):海量計(jì)算、準(zhǔn)實(shí)時(shí)計(jì)算、流式計(jì)算;個(gè)人,大數(shù)據(jù)平民化,數(shù)據(jù)創(chuàng)新;數(shù)據(jù)生產(chǎn)者,數(shù)據(jù)消費(fèi)者(廣告、推薦、客滿改進(jìn)、模式創(chuàng)新),數(shù)據(jù)加工者(行業(yè)專家、咨詢公司等)和服務(wù)與應(yīng)用供應(yīng)商(數(shù)據(jù)應(yīng)用、BI等)
其產(chǎn)品優(yōu)勢(shì)可以概括為5點(diǎn):
海量運(yùn)算觸手可得:用戶不必關(guān)心數(shù)據(jù)規(guī)模增長(zhǎng)帶來的存儲(chǔ)困難、運(yùn)算時(shí)間延長(zhǎng)等煩惱,ODPS可以根據(jù)用戶的數(shù)據(jù)規(guī)模自動(dòng)擴(kuò)展機(jī)群的存儲(chǔ)和計(jì)算能力,使用戶專心于數(shù)據(jù)分析和挖掘,最大化發(fā)揮數(shù)據(jù)的價(jià)值。
服務(wù)“開箱即用”:用戶不必關(guān)心機(jī)群的搭建、配置和運(yùn)維工作,僅需簡(jiǎn)單的幾步操作,就可以在ODPS中上傳數(shù)據(jù)、分析數(shù)據(jù)并得到分析結(jié)果。
數(shù)據(jù)存儲(chǔ)安全可靠:ODPS采用三重備份、讀寫請(qǐng)求鑒權(quán)、應(yīng)用沙箱、系統(tǒng)沙箱等多層次數(shù)據(jù)存儲(chǔ)和訪問安全機(jī)制保護(hù)用戶的數(shù)據(jù):不丟失、不泄露、不被竊取。
多用戶協(xié)作:通過配置不同的數(shù)據(jù)訪問策略,用戶可以讓組織中的多名數(shù)據(jù)分析師協(xié)同工作,并且每人僅能訪問自己權(quán)限許可內(nèi)的數(shù)據(jù),在保障數(shù)據(jù)安全的前提下最大化工作效率。
按量付費(fèi):ODPS根據(jù)用戶實(shí)際的存儲(chǔ)和計(jì)算消耗收費(fèi),最大化的降低用戶的數(shù)據(jù)使用成本。
湯子楠表示:“ODPS所有的功能是以RESTful API的形式對(duì)外提供,目前僅支持SQL,其他服務(wù)將后續(xù)逐一對(duì)外開放。而由于ODPS設(shè)計(jì)之初就是為了對(duì)外開放,做基于互聯(lián)網(wǎng)的多租戶的公共數(shù)據(jù)處理服務(wù),安全性在ODPS的設(shè)計(jì)和實(shí)現(xiàn)中具有優(yōu)先級(jí)很高。未來,ODPS還將開放更底層的邏輯計(jì)算單元,支持用戶基于ODPS開發(fā)Spark、Pig、準(zhǔn)實(shí)時(shí)、流處理等,真正成為在ODPS統(tǒng)一平臺(tái)可以實(shí)現(xiàn)多種框架的大數(shù)據(jù)運(yùn)算的樂趣。徹底解決現(xiàn)在數(shù)據(jù)要從不同集群中導(dǎo)來導(dǎo)入,且沒有統(tǒng)一布局,數(shù)據(jù)處理和維護(hù)都的麻煩。”
對(duì)于ODPS,阿里云的定位顯然不僅是內(nèi)部的數(shù)據(jù)統(tǒng)一平臺(tái),而且在外部,也將通過合作共建生態(tài),為更多企業(yè)提供大數(shù)據(jù)服務(wù)。湯子楠分享了一個(gè)用戶案例:
藥品電子監(jiān)管平臺(tái),收集中國(guó)境內(nèi)每盒藥從生產(chǎn)、批發(fā)、零售環(huán)節(jié)的所有流通信息,每盒藥都印刷了一個(gè)條形碼“中國(guó)藥品電子監(jiān)管碼”。藥監(jiān)部門利用這些流通信息追蹤到中國(guó)市場(chǎng)上每批藥品流向,追溯到零售環(huán)節(jié)任何一盒藥品的來源。而伴隨藥品數(shù)量的急劇攀升和分析等新需求,原有的Oracle系統(tǒng)無法滿足需要。新的數(shù)據(jù)平臺(tái)基于OTS+ODPS兩款產(chǎn)品,關(guān)鍵業(yè)務(wù)處理的平均延時(shí)降低100倍以上,成本大幅降低。
除此以外,還有華大基因,其已經(jīng)在ODPS上做了基因測(cè)序,耗時(shí)不到傳統(tǒng)方式的十分之一。
最后,ODPS的峰值是100PB數(shù)據(jù)處理6小時(shí)完成。按照使用量付費(fèi),存儲(chǔ)1GB的數(shù)據(jù),ODPS每個(gè)月大概是0.5元左右。
從技術(shù)上看,對(duì)ODPS還有兩個(gè)疑問。阿里云的回復(fù)很到位。
1.ODPS與Google BigQuery、Amazon有Redshift和EMR的比較?
阿里云:Google的BigQuery,Amazon的Redshift和EMR,可以認(rèn)為是ODPS的類似產(chǎn)品。在國(guó)內(nèi),ODPS是首款大數(shù)據(jù)存儲(chǔ)和計(jì)算開放服務(wù)。ODPS和BigQuery的產(chǎn)品形態(tài)比較類似,比如都支持海量數(shù)據(jù)的存儲(chǔ)和計(jì)算,都支持SQL語法等。兩者的主要區(qū)別在于:
1)底層技術(shù)實(shí)現(xiàn)不同。BigQuery基于Google自研的Dremel引擎,而ODPS則基于阿里云自研的飛天系統(tǒng),兩者在存儲(chǔ)、任務(wù)調(diào)度、任務(wù)優(yōu)化上有很多細(xì)節(jié)都不一樣。
2)BigQuery的主要應(yīng)用場(chǎng)景是交互式BI分析,而ODPS的適用場(chǎng)景則廣的多:目前已經(jīng)開放的SQL功能主要用于數(shù)據(jù)倉庫和日志分析;后續(xù)還將開放UDF和Map Reduce,支持用戶編程的離線計(jì)算;ODPS準(zhǔn)實(shí)時(shí),支持交互式BI分析;ODPS流處理,支持實(shí)時(shí)計(jì)算等。同時(shí),ODPS的數(shù)據(jù)授權(quán)體系功能更加豐富,使用更加靈活,可以同時(shí)滿足數(shù)據(jù)擁有者、數(shù)據(jù)消費(fèi)者和數(shù)據(jù)分析者的需要,ODPS未來可以成長(zhǎng)為一個(gè)基于數(shù)據(jù)的生態(tài)系統(tǒng)的底層平臺(tái)。
3)BigQuery僅是一款產(chǎn)品,而ODPS則是阿里云產(chǎn)品線的一部分。除了ODPS之外,阿里云還有SLS、OTS等一系列大數(shù)據(jù)服務(wù),組成一個(gè)綜合的大數(shù)據(jù)解決方案,滿足用戶在大數(shù)據(jù)領(lǐng)域的多項(xiàng)需求。
2. ODPS與各個(gè)超算中心提供能力的區(qū)別?
阿里云:1)超級(jí)計(jì)算機(jī)更適合計(jì)算密集型作業(yè),如果是用MPI算核物理、天體物理、蛋白質(zhì)折疊、求解普通PC上需要幾千萬年的迭代方程,用超級(jí)計(jì)算機(jī)可能更快。反過來,分布式集群Mapreduce適合IO密集型的作業(yè),加上成本低,可以把集群規(guī)模搞得很大,因此最適合掃描過濾海量的數(shù)據(jù),例如互聯(lián)網(wǎng)行業(yè)的經(jīng)典應(yīng)用:為搜索引擎創(chuàng)建全網(wǎng)Web頁面的索引。
2)超級(jí)計(jì)算機(jī)造價(jià)更昂貴,維護(hù)成本也高,甚至每小時(shí)電費(fèi)就得上萬元。
云計(jì)算是建立在低成本硬件+牛B的分布式操作系統(tǒng)設(shè)計(jì)上,在計(jì)算靈活性和多任務(wù)處理上遠(yuǎn)超超級(jí)計(jì)算機(jī),可以更廣泛的應(yīng)用于商業(yè)領(lǐng)域,例如阿里云去年和國(guó)內(nèi)的動(dòng)畫公司合作渲染出來的《昆塔》,計(jì)算量是《阿凡達(dá)》的四倍。隨著國(guó)內(nèi)經(jīng)濟(jì)的升級(jí),很多造船、石油、材料、生物、天體物理、軍事領(lǐng)域的計(jì)算需求都很強(qiáng)烈,這一類計(jì)算密集型任務(wù),也可以通過云計(jì)算完成。
ODPS是可以支撐科學(xué)運(yùn)算的,阿里正在舉辦的大數(shù)據(jù)競(jìng)賽就依托于ODPS平臺(tái)。參賽選手大量使用邏輯回歸、隨機(jī)森林這一類的數(shù)據(jù)挖掘算法。
進(jìn)一步簡(jiǎn)單解釋一下,基于飛天系統(tǒng),ODPS實(shí)現(xiàn)了Mapreduce(以及更高級(jí)的多階段DAG)、Graph、MPI等編程模型在同一個(gè)計(jì)算集群上統(tǒng)一調(diào)度。因此除了 IO密集型的計(jì)算,還能支持計(jì)算密集型的迭代計(jì)算,例如隨機(jī)梯度下降。
不過目前阿里云ODPS只對(duì)外開放商用了SQL編程接口,更多接口例如Mapreduce、Graph等等還沒有進(jìn)入公測(cè)階段,不過很快就會(huì)對(duì)外了。
大數(shù)據(jù)技術(shù)生態(tài)中,ODPS所代表的的只是其中重要的一環(huán),后續(xù)更為重要的是,強(qiáng)化伙伴能力,迅速在更多行業(yè)和應(yīng)用中扎根。期待基于ODPS的扶植計(jì)劃!