2014年4月19日“中國Spark技術峰會”(Spark Summit China 2014)將在北京召開,國內外Apache Spark社區成員和企業用戶將首次齊聚北京。AMPLab、Databricks、Intel、淘寶、網易等公司的Spark貢獻者及一線開發者將分享他們在生產環境中的Spark項目經驗和最佳實踐方案。
面對淘寶的海量用戶以及如何基于億級別的用戶和十億級別的關系鏈進行高效的關系構建,社區發現和屬性傳播,一個高效強大的分布式圖計算引擎必不可少。初出茅廬的Graphx是否能夠擔當如此重任,在Spark一棧式數據解決方案的藍圖中,勝任至關重要的圖計算一角?開發時如何提升性能?計算的結果如何高效應用?本演講將帶給你滿意的答案。在Spark技術峰會召開前夕,記者和本次Spark峰會的演講嘉賓明風做了一次簡單的溝通,他表示這些內容將會在4月19日“中國Spark技術峰會”和大家分享!點擊報名!
@明風Andy
淘寶技術部數據挖掘與計算團隊負責人,帶領團隊構建了國內第一個100臺規模的Spark on Yarn集群,并基于Spark進行大量機器學習、實時計算和圖計算的先行嘗試,并將實踐成果快速應用于淘寶網數據相關的業務和產品。
以下是記者采訪原文:
- 什么原因吸引你鉆研Spark技術?
研究Spark是從2012年的0.4版本開始的,當時Hadoop和Hive在阿里的成熟度已經達到了一個很高的程度,但是我感覺它們只解決了BI的問題,對于數據挖掘和機器學習算法,它們不能給出很好的方案,我看到有些做搜索和廣告的同學,用Mahout或者其它自己寫的MR,很慢很吃力的解決復雜的機器學習問題。我感覺這個不是一個正確的方向!所以我開始尋找其它產品和方案。這個時候Spark出現了,當時只有最簡單的2個LR和KMeans方法,但是通過它們,我感覺到了Spark的潛力,我認為這是一個正確的方向。于是我就開始在這個方向上做一些研究,并將其用于淘寶的推薦相關算法上。目前來看,這個決定是挺正確的。
- 對于解決哪些問題Spark獨具優勢?
Spark現在包含了挺多的子模塊,功能很豐富。但是對于我來看,它本質上是為了解決這3類問題:
a. 多次迭代的機器學習算法
b. 高計算復雜度的算法
c. 準實時海量數據計算
- 目前企業應用Spark最大的困難是什么?
對于企業來說,搭建Spark配合現有平臺,這個過程還是有一定搭建成本的,需要有比較專業的團隊維護。
另外對于普通的算法開發人員,Spark的學習成本還是有點高,Scala的切入不是很容易,入門曲線陡峭。不過由于Spark已經支持Java和Python,所以相信這個問題會越來越弱化。
- 根據您的了解,目前Spark發展的情況如何?
目前Spark的發展不錯,由于其高速的計算能力,強大的多種功能和一棧式解決方案,因此在美國和中國都有不少的用戶群。但是從整體上來看,還是要在降低用戶開發和調試成本上花更多的精力。由于Spark是并發異步模型,而且支持內存計算,這樣對內存消耗會很大,編程難度較高。一旦出錯,如何快速準確的找到錯誤,并且定位原因,找到最佳的解決方案,對于開發者來說是非常迫切的需求。一旦解決了這個問題,Spark在發展上可以迎來一個新的高峰。
- 請談談你在這次大會上即將分享的話題
我這次演講主題是基于Spark Graphx的大規模用戶圖計算和應用。圖算法是很多復雜機器學習算法的基礎,在單機時代有很多經典的案例,解決了很多問題,尤其是圖譜相關的問題,包括關系構建、社區發現、屬性傳播等等。對于用戶群分析和發現,有很重要的作用。在大數據時代,圖的規模大到一定程度后,單機就很難解決大規模的圖計算了。目前比較成熟的方案有Graphx和GraphLab。我們基于Graphx進行了一些嘗試,并解決了生產的問題,當然其中遇到了很多的坑,所以在此和大家分享一下,希望能夠讓大家少走一些彎路,盡快能夠享受基于Graphx的圖計算。
- 哪些聽眾最應該了解這些話題,這個話題可以幫助聽眾解決哪些問題?
對“用戶之間的關系發現”有興趣和需求的聽眾,都可以聽聽這個話題,包括興趣圖譜和關系圖譜,以及基于圖的推薦。這個話題可以幫助聽眾在如何用圖來思考用戶關系有一定的幫助,并且能夠了解如何用Graphx進行大規模數據的圖算法開發和調試。
更多精彩盡在2014年4月19日中國Spark技術峰會,3月31日前購票訂票可享受最低票價優惠。馬上報名!
往期采訪內容:
Spark獨門秘籍:打造結構一體化、功能多元化的高效數據流水線
網易王健宗:革命Hadoop,Spark帶來百億市場價值!
尹緒森:打開圈子擁抱變化,談Spark玩家的自我修養