日本搞逼视频_黄色一级片免费在线观看_色99久久_性明星video另类hd_欧美77_综合在线视频

國內(nèi)最全IT社區(qū)平臺 聯(lián)系我們 | 收藏本站
阿里云優(yōu)惠2
您當(dāng)前位置:首頁 > 互聯(lián)網(wǎng) > 尹緒森:打開圈子擁抱變化,談Spark玩家的自我修養(yǎng)

尹緒森:打開圈子擁抱變化,談Spark玩家的自我修養(yǎng)

來源:程序員人生   發(fā)布時間:2014-09-06 09:40:14 閱讀次數(shù):3257次

2014年4月19日“中國Spark技術(shù)峰會”(Spark Summit China 2014)將在北京召開,國內(nèi)外Apache Spark社區(qū)成員和企業(yè)用戶將首次齊聚北京。AMPLab、Databricks、Intel、淘寶、網(wǎng)易等公司的Spark貢獻者及一線開發(fā)者將分享他們在生產(chǎn)環(huán)境中的Spark項目經(jīng)驗和最佳實踐方案。

在Spark技術(shù)峰會召開前夕,記者和本次Spark峰會的演講嘉賓尹緒森做了一次簡單的溝通,他就Spark技術(shù)優(yōu)勢、Spark技術(shù)發(fā)展做了簡要的回答,同時他表示更多的內(nèi)容將會在4月19日“中國Spark技術(shù)峰會”和大家分享!點擊報名

尹緒森,Intel工程師   @尹緒森

熟悉并熱愛機器學(xué)習(xí)相關(guān)內(nèi)容,對自然語言處理、推薦系統(tǒng)等有所涉獵。目前致力于機器學(xué)習(xí)算法并行、凸顯優(yōu)化層面的算法優(yōu)化問題,以及大數(shù)據(jù)平臺性能調(diào)優(yōu)。對Spark、Mahout、GraphLab等開源項目有所嘗試和理解,并希望從優(yōu)化層向下,系統(tǒng)層向上對并行算法及平臺做出貢獻。


以下是記者采訪原文:

- 什么原因吸引你鉆研Spark技術(shù)?

我是典型的“師父領(lǐng)進門”。在吳甘沙老師的帶領(lǐng)下,在Intel研究院和一幫摯愛技術(shù)的小伙伴們鉆研到現(xiàn)在。我個人是比較相信“黑天鵝”的說法的,人生是由一連串的隨機事件組合起來的,從去年迷茫地進入Intel研究院,到接觸Spark以及有機會參加這次峰會都是曾未可知的。如果放在一年前,我怎么都不會想到有一天自己會跟Spark有所關(guān)聯(lián)。我的專業(yè)是機器學(xué)習(xí),從研究生生涯剛開始就立志做一名熱愛數(shù)學(xué)的“機器學(xué)習(xí)者”,因為機器學(xué)習(xí)不僅很有趣,而且看起來也高大上。做模型發(fā)paper是我的夙愿。去年到Intel之前一直在猶豫,不清楚一個夢想中的“機器學(xué)習(xí)者”到Intel能做什么。實際上,回頭來看能做的實在太多了,Intel研究院提供了一個絕對大的舞臺。
甘沙老師和小伙伴們都是扎實的系統(tǒng)專家,一起討論的時候各種聽不懂,導(dǎo)致我壓力特別大。我想是該改變自己的時候了,應(yīng)該擁抱變化,而不是把自己陷入到自己的小圈子內(nèi), 這是一種“自掘墳?zāi)埂钡耐娣ākS后玩命的看了各種系統(tǒng)方面的paper,寫Spark程序,讀Spark源碼,看Scala書籍,跟小伙伴們激烈的爭辯和討論,慢慢感到自己對Spark運行模式有了一絲了解。尤其是看過James Iry的Monads are Elephants系列博客之后,感覺愈來愈明晰了。
技術(shù)方面,Spark最吸引我的地方有三處: 一是新,新就意味著還不成熟,存在很多問題,這個時候恰是切入的好時機。有很多未完成的工作,以及大數(shù)據(jù)棧整體性能進行發(fā)掘。實際上,現(xiàn)階段我主要做的就是如何從Spark大數(shù)據(jù)棧整體來優(yōu)化機器學(xué)習(xí)算法的實現(xiàn)。這樣既能做機器學(xué)習(xí),又能玩系統(tǒng),每天都很開心;二是RDD實現(xiàn)之優(yōu)雅。我更愿意把RDD當(dāng)做一種“分布式+函數(shù)式的編程語言”, 而且我認為它會向這個方向繼續(xù)前進, 其實現(xiàn)策略之精妙, 讓人驚嘆不已;三是Scala, 不論別人怎么看待這種編程語言, 我感覺Scala是我用的最順的一種語言,在很多時候我都感覺不到“語法”的存在,很順暢的寫出程序,它就是你要的結(jié)果。簡潔明晰,極富表達力。最重要的是,正如Martin所期望的,Scala帶給我們的是思維的改變。

- 對于解決哪些問題Spark獨具優(yōu)勢?

RDD的表現(xiàn)力讓Spark成為多面手。這一點上與Scala的表現(xiàn)力讓Spark開發(fā)簡潔明快是一個道理,這也就是我為什么更傾向于把RDD看成一種分布式編程語言。 Spark 甫一出道,便以多迭代,內(nèi)存計算為主打,自然免不了進軍機器學(xué)習(xí)領(lǐng)域。Spark 對于程序員,尤其是機器學(xué)習(xí)者來說,簡直是福音一樣的存在。輕量級的框架設(shè)計,讓多迭代邏輯不必游離在主線程之外; 簡潔的job 提交方法讓job 切換時間大大降低;復(fù)合函數(shù)的思想擺脫了大量使用磁盤緩存中間結(jié)果的桎梏;大量現(xiàn)有,可定制算子的呈現(xiàn)簡化機器學(xué)習(xí)算法設(shè)計;甚至BDAS框架兼容并包,一種體系提供所有功能。

- 目前企業(yè)應(yīng)用Spark最大的困難是什么?

熟練使用Scala語言的程序員不多,現(xiàn)狀如此。實際上, 企業(yè)想招人進來直接玩轉(zhuǎn)Spark是不太現(xiàn)實的,這樣的人目前還比較少,尤其是不熟悉Scala的情況下。雖然存在Java和Python的API,但是Spark老東家重心還是在Scala實現(xiàn)的核心上,其他兩個社區(qū)支持可能沒那么及時。
熟知Spark運行時框架的人不多,很多人的理解存在誤區(qū)。直接導(dǎo)致的一個嚴(yán)重結(jié)果就是寫出來的程序“不靠譜”,運行很慢,或者出現(xiàn)錯誤的結(jié)果。在這種情況下,“傲慢與偏見”的心理作用會讓人產(chǎn)生對Spark的抵觸,甚至武斷地對Spark蓋棺定論。這是非常不好的事情。會上會講到一點這方面的案例。
比起Mahout這么多年的發(fā)展,MLlib成熟度不夠,不僅在算法數(shù)量上,也在于整體設(shè)計上。這就導(dǎo)致很多時候要自己寫很多算法。整體設(shè)計上有點偏面向?qū)ο蟮娘L(fēng)格,我并不是面向?qū)ο蟮膮拹赫撸菣C器學(xué)習(xí)算法用函數(shù)式語言寫起來更直觀。

- 根據(jù)您的了解,目前Spark發(fā)展的情況如何?

首先Spark在Apache社區(qū)里的貢獻者數(shù)目是首屈一指的,將來只會更多。Spark本身已經(jīng)快要到1.0版本了。其流處理以及SQL的使用可能是大家最關(guān)心的,從Spark郵件組里就能看出來。GraphX前段時間并入了Spark主線,這兩天Catalyst也并入了Spark主線。因此Spark的活躍度絕對沒有問題。另外,Databricks團隊的開發(fā)者以及社區(qū)的小伙伴們都是非常認真嚴(yán)肅的貢獻代碼, 其pull request審查非常嚴(yán)格。
不過相比于其他組件,MLlib發(fā)展相對較慢。首先MLlib的開發(fā)需要程序員在機器學(xué)習(xí)和系統(tǒng)兩方面都有很好的知識背景,不過現(xiàn)在社區(qū)機器學(xué)習(xí)和系統(tǒng)做的好的人越來越多了。另外Spark RDD對機器學(xué)習(xí)算法還是有一定的限制的,想要玩的好還需要下功夫。我同意“專業(yè)的工具會有更好的效果”的說法,對于機器學(xué)習(xí)算法來說,各自有適合自己的并行模式及優(yōu)化算法。但是如果下功夫好好玩的話,Spark MLlib是很給力的。你會發(fā)現(xiàn),在Spark的框架下實現(xiàn)高效的機器學(xué)習(xí)算法是件既有挑戰(zhàn)又很有趣的事情。不論我們未來是否跳出RDD的限制,都能做出很出色的事情來。

- 請談?wù)勀阍谶@次大會上即將分享的話題。

機器學(xué)習(xí)方法在這十年中取得了巨大的成就,大有百家爭鳴之勢。然而,機器學(xué)習(xí)領(lǐng)域一直受到多種問題的困擾。首先是模型準(zhǔn)確性和計算有效性的取舍; 其次數(shù)據(jù)可用性也嚴(yán)重制約著機器學(xué)習(xí)算法的進展;最后機器學(xué)習(xí)的可用性也制約著機器學(xué)習(xí)的發(fā)展。從性能上來看,機器學(xué)習(xí)算法的加速方法由四個境界。總結(jié)起來,分別是scale-up ,scale-out,算法本身打破串行限制,以及較好的編程模型。IBM計算機體系結(jié)構(gòu)師阿姆達爾在1967 年提出阿姆達爾定律,表明了并行系統(tǒng)存在的性能提升總是受到其中串行性最明顯一環(huán)的控制。這就要求如果一個系統(tǒng)真正要實現(xiàn)較好的加速并行,就要在各個層面上充分進行并行化。機器學(xué)習(xí)算法并行存在著四個層次的加速可能,因此也有四個層次的問題需要考慮。
近年來有越來越多的人進入“系統(tǒng)與機器學(xué)習(xí)聯(lián)姻”的領(lǐng)域,這方面的呼聲也越來越高。CMU大學(xué)的Eric Xing老師無疑是個中旗手,學(xué)術(shù)界與工業(yè)界也有大量的研究人員在這方面取得了不俗的進展,據(jù)我所知像計算所,微軟等都有“大牛”在研究。未來的研究點是機器學(xué)習(xí)算法指導(dǎo)的大數(shù)據(jù)系統(tǒng)構(gòu)建,或者大數(shù)據(jù)系統(tǒng)支撐的機器學(xué)習(xí)算法。機器學(xué)習(xí)和大數(shù)據(jù)系統(tǒng)并非“非此即彼”的二元選項,隨著2014年機器學(xué)習(xí)盛會ICML 和系統(tǒng)界一流的workshop APSys 一起在北京召開,以及機器學(xué)習(xí)從業(yè)者和系統(tǒng)架構(gòu)師不斷的交叉融合可見趨勢。通過算法指導(dǎo)系統(tǒng)搭建可以獲得動態(tài)的系統(tǒng)結(jié)構(gòu),反之會使得機器學(xué)習(xí)算法性能更高。

- 哪些聽眾最應(yīng)該了解這個話題,這個話題可以幫助聽眾解決哪些問題?

這次分享的話題將會包含下面幾個問題,根據(jù)實際情況會有所側(cè)重。首先是MLlib介紹,可能有些人還不太清楚,所以稍微提及一下MLlib現(xiàn)有的基本算法,整體模式等。其次是機器學(xué)習(xí)深入理解。我不會喋喋不休的向大家灌輸機器學(xué)習(xí)中常見的一堆堆公式,那會把大家嚇跑。實際上我自己有時候也看不下去。相反,我會以一種自己的理解去講一講機器學(xué)習(xí)方面的注意事項、關(guān)鍵點、著重強調(diào)與系統(tǒng)結(jié)合的部分。之后是希望能帶大家熟悉Spark運行時的一些情況。不了解Spark是怎么運行的,就永遠不可能寫出好的Spark程序,就跟優(yōu)秀的程序員都有很深的系統(tǒng)方面,編譯器方面,以及語言方面的知識一樣,可以說是“Spark玩家的自我修養(yǎng)”,并會提及一些實例來做更好的探究。最后我會說一說Spark機器學(xué)習(xí)實戰(zhàn)及調(diào)優(yōu)。時間有限, 不可能事無巨細。
這些話題應(yīng)該比較適合那些從事機器學(xué)習(xí)建模,并有期望轉(zhuǎn)入更加扎實的系統(tǒng)研究的人,也很有利于系統(tǒng)界的兄弟們多了解一下機器學(xué)習(xí)的背景知識。

更多精彩盡在2014年4月19日中國Spark技術(shù)峰會,3月31日前購票訂票可享受最低票價優(yōu)惠。馬上報名

往期采訪內(nèi)容:

Spark獨門秘籍:打造結(jié)構(gòu)一體化、功能多元化的高效數(shù)據(jù)流水線

網(wǎng)易王健宗:革命Hadoop,Spark帶來百億市場價值!


以“ 云計算大數(shù)據(jù) 推動智慧中國 ”為主題的 第六屆中國云計算大會 將于5月20-23日在北京國家會議中心隆重舉辦。產(chǎn)業(yè)觀察、技術(shù)培訓(xùn)、主題論壇、行業(yè)研討,內(nèi)容豐富,干貨十足。票價優(yōu)惠,馬上 報名 ! 
生活不易,碼農(nóng)辛苦
如果您覺得本網(wǎng)站對您的學(xué)習(xí)有所幫助,可以手機掃描二維碼進行捐贈
程序員人生
------分隔線----------------------------
分享到:
------分隔線----------------------------
關(guān)閉
程序員人生
主站蜘蛛池模板: 日日干日日| 午夜激情视频在线观看 | 97麻豆 | 色婷婷免费观看 | 欧美综合视频 | 99九九久久| 久久91精品国产91久久跳 | 久久91精品国产91久久跳 | 国产一区二 | 成人精品一区二区三区校园激情 | 哪里有毛片网站 | 亚洲高清视频在线观看 | 精品1区2区3区4区 | 天堂av一区二区三区在线播放 | 81精品久久久久久久婷婷 | 在线高清av | 欧美成人精品二区三区99精品 | 国产欧美精品 | 日本三级网 | 午夜性爽视频 | 九九九九九九精品 | www.精品 | 亚洲欧洲综合 | 国产精品一区二区三区免费看 | 免费观看亚洲 | 99久久九九 | 欧美日韩成人在线观看 | 免费视频一区二区 | 国产中文字幕一区二区三区 | 日韩精品一区在线 | 一级黄色毛片 | 丰满少妇高潮惨叫久久久 | www.久久婷婷 | 日日干狠狠干 | 日韩一区二区在线视频 | 久久99精品国产一区二区三区 | 欧洲精品久久 | 亚洲日韩中文字幕 | 综合久久狠狠色成人网 | 久久亚洲综合国产精品99麻豆精品福利 | 日韩色综合 |