您當(dāng)前位置：首頁 > 互聯(lián)網(wǎng) > 騰訊薛偉：快速模型更新在精準(zhǔn)廣告推薦中的應(yīng)用

騰訊薛偉：快速模型更新在精準(zhǔn)廣告推薦中的應(yīng)用

來源：程序員人生發(fā)布時間：2014-10-13 05:06:05 閱讀次數(shù)：2637次

2014年4月19日“中國Spark技術(shù)峰會”（Spark Summit China 2014）將在北京召開，國內(nèi)外Apache Spark社區(qū)成員和企業(yè)用戶將首次齊聚北京。AMPLab、Databricks、Intel、淘寶、網(wǎng)易等公司的Spark貢獻(xiàn)者及一線開發(fā)者將分享他們在生產(chǎn)環(huán)境中的Spark項目經(jīng)驗和最佳實踐方案。

精準(zhǔn)推薦的數(shù)據(jù)環(huán)境是快速變化的，無論是用戶還是被推薦的物品，都在快速地出現(xiàn)、變化、消失。用于推薦的機(jī)器學(xué)習(xí)模型必須夠快地更新才能更好地適應(yīng)這種快速變化，這一點對于展示廣告來說尤為重要。騰訊廣點通團(tuán)隊長期從事社交網(wǎng)絡(luò)展示廣告的技術(shù)研究和應(yīng)用，從Spark誕生之初就開始關(guān)注這項技術(shù)和這個開源項目，并在廣點通項目中進(jìn)行了長期的應(yīng)用實踐。在Spark技術(shù)峰會召開前夕，記者和本次Spark峰會的演講嘉賓薛偉做了一次簡單的溝通，他表示將會在4月19日“中國Spark技術(shù)峰會”和大家分享騰訊如何綜合運(yùn)用包括Spark在內(nèi)的技術(shù)來實現(xiàn)廣告推薦模型的快速更新！點擊報名！

薛偉

騰訊精準(zhǔn)推薦中心廣告推薦負(fù)責(zé)人。2006年在北京航空航天大學(xué)取得博士學(xué)位，同年加入IBM中國研究院， 2011年加入騰訊數(shù)據(jù)平臺部。一直從事云計算、海量數(shù)據(jù)分析和數(shù)據(jù)挖掘、精準(zhǔn)推薦相關(guān)的研發(fā)工作。

以下是記者采訪原文：

-什么原因吸引你鉆研Spark技術(shù)？

我在Spark第一篇論文出來之后就開始關(guān)注這項技術(shù)，在Spark-Project還沒有版本編號的時候就開始關(guān)注這個開源項目了。當(dāng)時Spark吸引我的主要有兩點：第一點就是速度，In-Memory的計算可以達(dá)到比Hadoop高一個數(shù)量級的速度，這一點非常吸引像我們這樣大量使用Hadoop進(jìn)行數(shù)據(jù)處理和計算的應(yīng)用者；第二點就是Spark優(yōu)雅的編程模型，個人認(rèn)為這一點傳承自Scala這種面向?qū)ο蟪绦蛟O(shè)計思想和函數(shù)式程序設(shè)計思想結(jié)合非常好的語言，Spark優(yōu)雅的編程模型還非常有助于我們移植現(xiàn)有Hadoop上的程序。主要就是基于這兩點理由，我們選擇了Spark作為很重要的一個分布式計算平臺，來支撐我們?nèi)粘５臉I(yè)務(wù)。

-對于解決哪些問題Spark獨(dú)具優(yōu)勢？

從我們的實踐經(jīng)驗來看，Spark在大/中規(guī)模數(shù)據(jù)迭代和交互式數(shù)據(jù)處理方面有優(yōu)勢。之所以不單純的說是大數(shù)據(jù)，是因為Spark一個重要優(yōu)勢是In-Memory計算，而現(xiàn)在Memory還是要比磁盤存儲小一些。不過Spark社區(qū)很活躍，相關(guān)的技術(shù)還在不斷地發(fā)展當(dāng)中。Spark的優(yōu)勢領(lǐng)域應(yīng)該還會不斷地擴(kuò)大，我們也在一直保持關(guān)注。

-目前企業(yè)應(yīng)用Spark最大的困難是什么？

我想這個問題的答案取決于企業(yè)想要拿Spark來干什么。對于我們團(tuán)隊來說，Spark目前主要是用來做分布式并行計算，特別是機(jī)器學(xué)習(xí)模型的訓(xùn)練，此外還有一些交互式數(shù)據(jù)分析方面的應(yīng)用。這些應(yīng)用都是作為生產(chǎn)系統(tǒng)的一部分來對外提供服務(wù)。個人覺得對于這些應(yīng)用來說，目前使用Spark最大的困難是QoS。因為Spark速度快，所以我們對它的QoS要求會比對Hadoop的要求更高，我們除了關(guān)心運(yùn)行穩(wěn)定性、速度和容錯這些指標(biāo)，我們還會關(guān)心延遲之類的指標(biāo)。在提供交互式分析服務(wù)時，這方面要求還會更高一些。隨著集群規(guī)模擴(kuò)大，集群上跑的作業(yè)數(shù)目增加，特別是當(dāng)需要和其他分布式計算基礎(chǔ)設(shè)施（如Hadoop）分享物理資源的時候，QoS的保障會變得越發(fā)困難。據(jù)我所知社區(qū)在這方面有不少的研究項目，我們這邊也有人在跟進(jìn)這方面進(jìn)展并做一些實踐工作。

-根據(jù)您的了解，目前Spark發(fā)展的情況如何？

我從技術(shù)和應(yīng)用兩個角度談?wù)剛€人的感覺吧。技術(shù)方面，個人感覺Spark這幾年成長很快，自身的成熟化、為支持新型應(yīng)用而做的技術(shù)擴(kuò)展以及上下游生態(tài)系統(tǒng)的建設(shè)都有長足進(jìn)步。在應(yīng)用方面，我們是比較早就開展應(yīng)用實踐的，我們看到了實際的好處，相信業(yè)內(nèi)關(guān)注Spark并且付諸實踐的同仁也都有相同的感受。近幾年來無論是公司內(nèi)還是公司外，我都看到越來越多的人在用Spark。總的來說，社區(qū)在成長技術(shù)在發(fā)展，個人覺得Spark發(fā)展得挺好，而且有更遠(yuǎn)大的發(fā)展空間。

-請談?wù)勀阍谶@次大會上即將分享的話題。

這次大會我報告的題目是“快速模型更新在精準(zhǔn)廣告推薦中的應(yīng)用”，主要是分享我們在互聯(lián)網(wǎng)精準(zhǔn)推薦領(lǐng)域運(yùn)用Spark和其他相關(guān)技術(shù)的一些經(jīng)驗和思考。這個分享更多的是關(guān)于應(yīng)用而不是關(guān)于技術(shù)本身，我會介紹我們的應(yīng)用場景，為什么需要用到Spark、如何搭配使用上下游的技術(shù)來發(fā)揮最大的效力，以及最終在生產(chǎn)實踐中取得的效果。

-哪些聽眾最應(yīng)該了解這些話題，這個話題可以幫助聽眾解決哪些問題？

因為我這個題目是和應(yīng)用密切相關(guān)的，個人覺得那些對Spark技術(shù)應(yīng)用躍躍欲試的聽眾會對我的題目感興趣，同時我也希望對那些已經(jīng)有Spark應(yīng)用經(jīng)驗的聽眾也有參照和借鑒作用。不敢說解決什么實際問題吧，能夠拋磚引玉促進(jìn)技術(shù)交流，繁榮社區(qū)就很好了。

更多精彩盡在2014年4月19日中國Spark技術(shù)峰會，3月31日前購票訂票可享受最低票價優(yōu)惠。馬上報名！

往期采訪內(nèi)容：

皮皮網(wǎng)陳超：易用與性能兼?zhèn)洌琒park蓬勃發(fā)展！

淘寶明風(fēng)：基于Graphx的圖計算實踐分享

Spark獨(dú)門秘籍：打造結(jié)構(gòu)一體化、功能多元化的高效數(shù)據(jù)流水線

網(wǎng)易王健宗：革命Hadoop，Spark帶來百億市場價值！

尹緒森：打開圈子擁抱變化，談Spark玩家的自我修養(yǎng)

以“ 云計算大數(shù)據(jù) 推動智慧中國 ”為主題的 第六屆中國云計算大會 將于5月20-23日在北京國家會議中心隆重舉辦。產(chǎn)業(yè)觀察、技術(shù)培訓(xùn)、主題論壇、行業(yè)研討，內(nèi)容豐富，干貨十足。票價優(yōu)惠，馬上報名！

生活不易，碼農(nóng)辛苦
如果您覺得本網(wǎng)站對您的學(xué)習(xí)有所幫助,可以手機(jī)掃描二維碼進(jìn)行捐贈
程序員人生