日本搞逼视频_黄色一级片免费在线观看_色99久久_性明星video另类hd_欧美77_综合在线视频

國內(nèi)最全IT社區(qū)平臺 聯(lián)系我們 | 收藏本站
阿里云優(yōu)惠2
您當(dāng)前位置:首頁 > 互聯(lián)網(wǎng) > 輕松搞定TB級數(shù)據(jù),開源GraphLab突破人類圖計算“極限值”

輕松搞定TB級數(shù)據(jù),開源GraphLab突破人類圖計算“極限值”

來源:程序員人生   發(fā)布時間:2014-09-06 19:22:19 閱讀次數(shù):3511次

圖數(shù)據(jù)處理過去一直是數(shù)據(jù)科學(xué)家的專利,隨著數(shù)據(jù)應(yīng)用得越來越廣泛,圖數(shù)據(jù)分析成為數(shù)據(jù)分析領(lǐng)域必不可少的部分,人們越來越需要易于上手、使用簡單的圖數(shù)據(jù)分析工具。GraphLab是個很受大家歡迎的開源項目,GraphLab開發(fā)者們不斷追求圖計算的創(chuàng)新和發(fā)展,使其能迎合海量數(shù)據(jù)處理的要求。SFrame的亮相顯得低調(diào)而神秘,不過其功能不可小覷,它將GraphLab擴展到了表格,使其可以輕松管理TB級數(shù)據(jù)。

社交媒體的圖數(shù)據(jù)已經(jīng)引起了許多公司注意,在生命健康科學(xué)、安全、金融服務(wù)等很多領(lǐng)域也存在類似的數(shù)據(jù)集。圖數(shù)據(jù)的特征使其需要特殊工具和技術(shù),這些工具對于一般用戶來說太復(fù)雜了,在過去使用這些工具一直是數(shù)據(jù)科學(xué)家的專利。幸運的是圖數(shù)據(jù)分析這個領(lǐng)域吸引了很多熱心的企業(yè)家和開發(fā)人員。這些工具已經(jīng)得到很大的改進,而且變得越來越簡單。

我們身邊有很多機器學(xué)習(xí)應(yīng)用于圖數(shù)據(jù)分析的示例,比如:發(fā)現(xiàn)有影響力的用戶(PageRank)和社區(qū)、欺詐檢測和推薦系統(tǒng)(GraphLab用戶中比較流行的協(xié)同過濾)。一個領(lǐng)域的工具開發(fā)出來后常常會被應(yīng)用到其他領(lǐng)域,除了GraphLab,分布式分析還被應(yīng)用到Giraph、GraphX、Faunus和Grappa,此外像Neo4j和Yarcdata這樣的圖數(shù)據(jù)庫也帶有一些分析功能。

近日一家新公司的成立大大推動了開源項目GraphLab的發(fā)展,該公司由GraphLab的開發(fā)者組成,籌集資金為圖數(shù)據(jù)集開發(fā)分析工具。GraphLab公司也將繼續(xù)使用開源GraphLab“突破圖計算的極限,努力創(chuàng)新”。

GraphLab的SFrame是一種趣味十足而低調(diào)神秘的工具,首次在 Strata Santa Clara被揭開面紗。它基于磁盤,并通過二維表形式將GraphLab擴展到了表格數(shù)據(jù)。通過添加SFrame,用戶可以利用GraphLab中許多處理圖或表中數(shù)據(jù)的算法。更重要的是SFrame增加了GraphLab數(shù)據(jù)科學(xué)工作流的覆蓋范圍:它允許用戶直接使用GraphLab對TB大小的數(shù)據(jù)集進行數(shù)據(jù)清潔或者創(chuàng)建新的功能,SFrame性能可以通過增加內(nèi)核實現(xiàn)線性擴展。

據(jù)有關(guān)人士透露GraphLab正在努力將它們的引擎與YARN集成到一起,不過SFrame測試版已經(jīng)可以從HDFS中讀取數(shù)據(jù),還可以從本地磁盤、HDFS、S3或URL中讀取數(shù)據(jù),并保存成人類可讀的.csv或更有效的本機格式。一旦SFrame被創(chuàng)建并保存到磁盤后,就不需要再重復(fù)處理數(shù)據(jù)了。下面用Python代碼演示如何讀取一個.csv文件到SFrame,以及創(chuàng)建一個新的數(shù)據(jù)功能并把它保存在S3磁盤上:

來源:GraphLab公司

GraphLab Create是為那些想要開發(fā)推薦系統(tǒng)之類數(shù)據(jù)產(chǎn)品的軟件工程師和數(shù)據(jù)科學(xué)家設(shè)計的,即使那些對機器學(xué)習(xí)比較陌生的人也能很快上手,還可以幫助經(jīng)驗豐富的開發(fā)者節(jié)省大量時間。

通過GraphLab Create可以開發(fā)數(shù)據(jù)產(chǎn)品或者用機器學(xué)習(xí)和圖分析方法進行數(shù)據(jù)分析,可以連接到你的數(shù)據(jù),通過迭代層次模型實現(xiàn)數(shù)據(jù)轉(zhuǎn)換,并輕松地分析模型和系統(tǒng)性能,還可以在你的機器上運行應(yīng)用或在AWS中運行實例。

而SFrame就是GraphLab Create的一部分,三月份將發(fā)布Python包,以簡化可擴展分析產(chǎn)品的創(chuàng)建(例如推薦系統(tǒng)和圖型分析系統(tǒng))。利用GraphLab Create,用戶將能夠從Python或Ipython內(nèi)部生成和維護分析管道,并將它們部署在單個服務(wù)器上或整個群集(包括本地和云)。

過去GraphLab被認(rèn)為可擴展、速度快,但是使用困難而且應(yīng)用范圍有限。但過去的幾個月里,GraphLab公司已解決兩個首要問題,由此開發(fā)的工具應(yīng)該可以大大增加GraphLab對于數(shù)據(jù)科學(xué)家的吸引力。與IPython的集成為PyData社區(qū)開啟了一個GraphLab快速、可擴展分析模塊時代(通過Python的六個線程生成端到端推薦)。SFrame和GraphLab Create擴展了數(shù)據(jù)科學(xué)工作流,使其包括數(shù)據(jù)轉(zhuǎn)換(data wrangling)和數(shù)據(jù)吸收(data ingestion)。

在利用圖工具分析之前,需要將數(shù)據(jù)轉(zhuǎn)化成圖。GraphBuilder是英特爾的一個開源項目,它使用Hadoop MapReduce從大型數(shù)據(jù)集中生成圖。另一個選擇是GraphX與Spark的結(jié)合產(chǎn)物,是由一個叫做Trifacta的新公司開發(fā)的多用途數(shù)據(jù)辨析工具。

由于SFrames類似于Pandas(PyData)和R數(shù)據(jù)架構(gòu),數(shù)據(jù)科學(xué)家可以非常方便快速地使用它們,提高工作效率。要問SFrames為什么能吸引Strata與會者,我覺得是因為它能夠擴展到更大的數(shù)據(jù)集: SFrame允許用戶處理大型表格式數(shù)據(jù)集而不局限于內(nèi)存大小。

相關(guān)鏈接:

Easily Manipulate Terabyte-Sized Datasets With GraphLab

Improving options for unlocking your graph data(編譯/毛夢琪 審校/魏偉)


CSDN推薦:歡迎免費訂閱《Hadoop與大數(shù)據(jù)周刊》獲取更多Hadoop技術(shù)文獻、大數(shù)據(jù)技術(shù)分析、企業(yè)實戰(zhàn)經(jīng)驗,生態(tài)圈發(fā)展趨勢。

生活不易,碼農(nóng)辛苦
如果您覺得本網(wǎng)站對您的學(xué)習(xí)有所幫助,可以手機掃描二維碼進行捐贈
程序員人生
------分隔線----------------------------
分享到:
------分隔線----------------------------
關(guān)閉
程序員人生
主站蜘蛛池模板: 久久不卡 | 一区两区小视频 | 自拍 亚洲| 免费在线色 | 在线一区二区三区四区 | 精品一区二区三区免费 | 日韩精品一区二区三区 | 国产乱淫视频 | 欧美国产一区二区 | 国产 第1163页 | 欧美极品少妇xxxxⅹ免费视频 | 日韩欧美精品一区 | 成人黄色在线视频 | 日日操夜夜操狠狠操 | 成人免费视频观看 | 国产欧美一区二区视频 | 精品美女久久久久久免费 | 激情五月婷婷综合 | 精品动漫一区二区 | 黄色二区| 国产精品久久久久久久久潘金莲 | 免费在线观看一区 | 一区二区三区视频 | 欧美一区二区大片 | 在线观看一区 | 久久精品无码一区二区三区 | 国产麻豆乱码精品一区二区三区 | a级毛片毛片免费很很综合 91久久 | 91网站免费在线观看 | 精品久久久久久久久久久久 | 一区二区高清在线 | 久久二区视频 | av网站免费看 | 国产精品乱码一区二区三区 | 国产a免费 | 免费毛片在线 | 久久久久国产精品一区 | 精品一区二区三区不卡 | 亚洲精美视频 | 精品久久一区 | 日韩欧美自拍偷拍 |