2014年4月19日“中國Spark技術(shù)峰會”(Spark Summit China 2014)將在北京召開,國內(nèi)外Apache Spark社區(qū)成員和企業(yè)用戶將首次齊聚北京。AMPLab、Databricks、Intel、淘寶、網(wǎng)易等公司的Spark貢獻(xiàn)者及一線開發(fā)者將分享他們在生產(chǎn)環(huán)境中的Spark項目經(jīng)驗和最佳實踐方案。
精準(zhǔn)推薦的數(shù)據(jù)環(huán)境是快速變化的,無論是用戶還是被推薦的物品,都在快速地出現(xiàn)、變化、消失。用于推薦的機(jī)器學(xué)習(xí)模型必須夠快地更新才能更好地適應(yīng)這種快速變化,這一點對于展示廣告來說尤為重要。騰訊廣點通團(tuán)隊長期從事社交網(wǎng)絡(luò)展示廣告的技術(shù)研究和應(yīng)用,從Spark誕生之初就開始關(guān)注這項技術(shù)和這個開源項目,并在廣點通項目中進(jìn)行了長期的應(yīng)用實踐。在Spark技術(shù)峰會召開前夕,記者和本次Spark峰會的演講嘉賓薛偉做了一次簡單的溝通,他表示將會在4月19日“中國Spark技術(shù)峰會”和大家分享騰訊如何綜合運(yùn)用包括Spark在內(nèi)的技術(shù)來實現(xiàn)廣告推薦模型的快速更新!點擊報名!
薛偉
騰訊精準(zhǔn)推薦中心廣告推薦負(fù)責(zé)人。2006年在北京航空航天大學(xué)取得博士學(xué)位, 同年加入IBM中國研究院, 2011年加入騰訊數(shù)據(jù)平臺部。一直從事云計算、海量數(shù)據(jù)分析和數(shù)據(jù)挖掘、精準(zhǔn)推薦相關(guān)的研發(fā)工作。
以下是記者采訪原文:
-什么原因吸引你鉆研Spark技術(shù)?
我在Spark第一篇論文出來之后就開始關(guān)注這項技術(shù),在Spark-Project還沒有版本編號的時候就開始關(guān)注這個開源項目了。當(dāng)時Spark吸引我的主要有兩點:第一點就是速度,In-Memory的計算可以達(dá)到比Hadoop高一個數(shù)量級的速度,這一點非常吸引像我們這樣大量使用Hadoop進(jìn)行數(shù)據(jù)處理和計算的應(yīng)用者;第二點就是Spark優(yōu)雅的編程模型,個人認(rèn)為這一點傳承自Scala這種面向?qū)ο蟪绦蛟O(shè)計思想和函數(shù)式程序設(shè)計思想結(jié)合非常好的語言,Spark優(yōu)雅的編程模型還非常有助于我們移植現(xiàn)有Hadoop上的程序。主要就是基于這兩點理由,我們選擇了Spark作為很重要的一個分布式計算平臺,來支撐我們?nèi)粘5臉I(yè)務(wù)。
-對于解決哪些問題Spark獨(dú)具優(yōu)勢?
從我們的實踐經(jīng)驗來看,Spark在大/中規(guī)模數(shù)據(jù)迭代和交互式數(shù)據(jù)處理方面有優(yōu)勢。之所以不單純的說是大數(shù)據(jù),是因為Spark一個重要優(yōu)勢是In-Memory計算,而現(xiàn)在Memory還是要比磁盤存儲小一些。不過Spark社區(qū)很活躍,相關(guān)的技術(shù)還在不斷地發(fā)展當(dāng)中。Spark的優(yōu)勢領(lǐng)域應(yīng)該還會不斷地擴(kuò)大,我們也在一直保持關(guān)注。
-目前企業(yè)應(yīng)用Spark最大的困難是什么?
我想這個問題的答案取決于企業(yè)想要拿Spark來干什么。對于我們團(tuán)隊來說,Spark目前主要是用來做分布式并行計算,特別是機(jī)器學(xué)習(xí)模型的訓(xùn)練,此外還有一些交互式數(shù)據(jù)分析方面的應(yīng)用。這些應(yīng)用都是作為生產(chǎn)系統(tǒng)的一部分來對外提供服務(wù)。個人覺得對于這些應(yīng)用來說,目前使用Spark最大的困難是QoS。因為Spark速度快,所以我們對它的QoS要求會比對Hadoop的要求更高,我們除了關(guān)心運(yùn)行穩(wěn)定性、速度和容錯這些指標(biāo),我們還會關(guān)心延遲之類的指標(biāo)。在提供交互式分析服務(wù)時,這方面要求還會更高一些。隨著集群規(guī)模擴(kuò)大,集群上跑的作業(yè)數(shù)目增加,特別是當(dāng)需要和其他分布式計算基礎(chǔ)設(shè)施(如Hadoop)分享物理資源的時候,QoS的保障會變得越發(fā)困難。據(jù)我所知社區(qū)在這方面有不少的研究項目,我們這邊也有人在跟進(jìn)這方面進(jìn)展并做一些實踐工作。
-根據(jù)您的了解,目前Spark發(fā)展的情況如何?
我從技術(shù)和應(yīng)用兩個角度談?wù)剛€人的感覺吧。技術(shù)方面,個人感覺Spark這幾年成長很快,自身的成熟化、為支持新型應(yīng)用而做的技術(shù)擴(kuò)展以及上下游生態(tài)系統(tǒng)的建設(shè)都有長足進(jìn)步。在應(yīng)用方面,我們是比較早就開展應(yīng)用實踐的,我們看到了實際的好處,相信業(yè)內(nèi)關(guān)注Spark并且付諸實踐的同仁也都有相同的感受。近幾年來無論是公司內(nèi)還是公司外,我都看到越來越多的人在用Spark。總的來說,社區(qū)在成長技術(shù)在發(fā)展,個人覺得Spark發(fā)展得挺好,而且有更遠(yuǎn)大的發(fā)展空間。
-請談?wù)勀阍谶@次大會上即將分享的話題。
這次大會我報告的題目是“快速模型更新在精準(zhǔn)廣告推薦中的應(yīng)用”,主要是分享我們在互聯(lián)網(wǎng)精準(zhǔn)推薦領(lǐng)域運(yùn)用Spark和其他相關(guān)技術(shù)的一些經(jīng)驗和思考。這個分享更多的是關(guān)于應(yīng)用而不是關(guān)于技術(shù)本身,我會介紹我們的應(yīng)用場景,為什么需要用到Spark、如何搭配使用上下游的技術(shù)來發(fā)揮最大的效力,以及最終在生產(chǎn)實踐中取得的效果。
-哪些聽眾最應(yīng)該了解這些話題,這個話題可以幫助聽眾解決哪些問題?
因為我這個題目是和應(yīng)用密切相關(guān)的,個人覺得那些對Spark技術(shù)應(yīng)用躍躍欲試的聽眾會對我的題目感興趣,同時我也希望對那些已經(jīng)有Spark應(yīng)用經(jīng)驗的聽眾也有參照和借鑒作用。不敢說解決什么實際問題吧,能夠拋磚引玉促進(jìn)技術(shù)交流,繁榮社區(qū)就很好了。
更多精彩盡在2014年4月19日中國Spark技術(shù)峰會,3月31日前購票訂票可享受最低票價優(yōu)惠。馬上報名!
往期采訪內(nèi)容:
皮皮網(wǎng)陳超:易用與性能兼?zhèn)洌琒park蓬勃發(fā)展!
淘寶明風(fēng):基于Graphx的圖計算實踐分享
Spark獨(dú)門秘籍:打造結(jié)構(gòu)一體化、功能多元化的高效數(shù)據(jù)流水線
網(wǎng)易王健宗:革命Hadoop,Spark帶來百億市場價值!
尹緒森:打開圈子擁抱變化,談Spark玩家的自我修養(yǎng)