2014年4月19日“中國Spark技術峰會”(Spark Summit China 2014)將在北京召開,國內外Apache Spark社區成員和企業用戶將首次齊聚北京。AMPLab、Databricks、Intel、淘寶、網易等公司的Spark貢獻者及一線開發者將分享他們在生產環境中的Spark項目經驗和最佳實踐方案。
Spark作為一個通用的并行計算框架,已經成為繼Hadoop之后又一大熱門開源項目,逐漸獲得很多企業的支持。在Spark技術峰會召開前夕,記者采訪到了本次峰會的演講者――網易高級研究員、中國計算機學會大數據專委會委員王健宗博士。他曾任惠普云計算高級解決方案專家和美國萊斯大學電子與計算工程系研究員,現負責網易游戲大數據框架的研究和部署工作,在其推廣下成功將Spark穩定應用在生產環境中。
網易高級研究員、中國計算機學會大數據專委會委員王健宗博士
CSDN的專訪整理如下:
?-?什么原因吸引你鉆研Spark技術?? ?
主要是Berkeley AMPLab出的東西吸引了我,我很信奉一句:“AMP出品,必屬精品”,基本上每周我都會關注他們LAB的主頁,閱讀他們的技術報告和論文,緊跟他們的研究前沿,建議大家有興趣多關注一下?https://amplab.cs.berkeley.edu/projects/ ?,目前他們所孵化的一些生物計算、多核、機器學習等項目可能未來也會影響整個計算機領域。
記得五六年前,在云計算風生水起的時候,AMPLab所發表的“ABOVE THE CLOUDS: A BERKELEY VIEW OF CLOUD COMPUTING”,是目前云計算引用最高的文章,你現在回頭看這篇文章會發現目前云計算的發展方向和戰略依然逃不出這篇文章當時所定義和規劃的內容。
我再說個例子,我以前最早是從事存儲研究工作的,而AMPLab所出的RISC?、RAID、NOW可以說改變了并深遠影響了整個計算機工業,記得我在美國留學的時候,和AMPLab的創始人DAVID PATTERSON有過當面的交流,對于這個杰出科學家依然保持對技術的熱情,每天依然和學生MEETING到深夜的敬業精神所深深感動,有這樣的一群人,你說他們所出的東西還用懷疑嗎?
Spark最早出現的時候,我就很關注,這是Berkeley AMPLab在大數據時代的殺手锏,也是將來能一統大數據領域的利器,套用大約三十年前他們發明RAID時候的話,我覺得“?Spark會帶來百億的市場價值”。
-?對于解決哪些問題Spark獨具優勢?
Spark的優勢得天獨厚,其是一個完整的大數據處理生態系統,除了底層存儲HDFS還需要使用Hadoop的生態系統外,其他方面完全可以替代Hadoop,Hadoop自己在可用性、可靠性、實時性方面的一些劣勢我這里就不重復敘述了,而Spark正是可以革命Hadoop的目前唯一替代者。
-?目前企業應用Spark最大的困難是什么?
目前最大的困難還是人的因素,了解Spark的人還是太少,我現在去和一些企業有大數據需求的CEO聊天的時候,一些單位使用Hadoop的人都很少,何談Spark?
目前Spark處于企業應用的起步階段,主要是一些大公司在應用,的確各方面還是不成熟,所以培養一批Spark技術專家來推動企業的應用迫不及待,也是目前企業應用的最大困難。
-?根據您的了解,目前Spark發展的情況如何?
目前SPARK整個大數據處理生態系統,如流處理、圖技術、機器學習、NoSQL查詢等方面都有自己的技術,并且也剛剛成為Apache頂級Project,在Hadoop?2.0中也完美整合,此外AMPLab一批人成立了公司來全力推動,有一些教授放棄了公職,一些博士中斷了學業,相信以這種壯士斷腕的霸氣肯定可以把Spark發展好,Hadoop從推動到目前大規模應用也走了五年多時間,而Spark還有比較長的路要走。
-?請談談你在這次大會上即將分享的話題。
我主要介紹自己Spark的一些經驗得失,因為Spark對于你我他都是新東西,都處于學習階段,我只是走得前了一小步,所以我的一些經驗總結期望能為大家應用落地Spark提供參考和幫助。
-?哪些聽眾最應該了解這些話題,這個話題可以幫助聽眾解決哪些問題?
我認為所有對大數據處理有興趣,或者出現大數據處理實時性困難的公司或者個人都可以來參加這個峰會。相信經過這次峰會之后,可以堅定大家回去之后應用Spark來提到Hadoop的決心和信心,更多的內容我們可以峰會的時候交流。