【編者按】隨著物聯網的發展,應對快數據的困難將越來越大。物聯網會給我們帶來更多的快數據,機器產生的數據量會超出我們想象,快數據在一定程度上比大數據更為重要,而且這些數據既不直觀也不易于使用,但這一切將為那些以數據驅動業務的公司帶來更強的競爭力。誰先做好準備,誰就能在競爭中獲得優勢。下面看Datanami的Alex Woodie給我們帶來的精彩分析。
CSDN推薦:歡迎免費訂閱《Hadoop與大數據周刊》獲取更多Hadoop技術文獻、大數據技術分析、企業實戰經驗,生態圈發展趨勢。
以下為原文:
大數據時代,快數據(fast data)有望給企業帶來新的機遇。智能手機、傳感器和社交媒體產生了上百億個數據節點,如果你沒有能力對這些數據節點以及物聯網作出響應,那快數據帶來的商機將與你擦肩而過。
對于很多商業分析應用程序,快數據的分析和處理是大數據項目中不可避免的難題。每當數據科學家從他們的大數據集(靜態的)挖掘出新內容時,業務人員立刻就會去想從中賺錢的方法,同樣,動態數據中巨大的經濟利益也會促使快數據在商業中受到更多的重視,相信未來快數據會在商業中發揮更大的作用。
TIBCO這個公司從字面上可以理解為“有信息總線的IT企業”,它旨在為各種企業系統(如股票市場和交易應用程序)之間提供高速、低延遲的連接?,F在該公司致力于發展物聯網(IoT)和快數據相關的技術,并將其作為自己的“兩個第二優勢”。
TIBCO市場部門高級總監告訴我們:“快數據首先要解決的是數據訪問問題,即首先得訪問到數據,現在我們正努力捕獲所有不在防火墻保護范圍內的數據,不管來自社交網絡還是其他有API的來源?!?/p>
例如,零售商使用BusinessWorks(該公司近期公布的旗艦版數據集成平臺)可以通過客戶的智能手機捕獲客戶地理位置數據,并且可以基于客戶地理數據使用實時商品推薦系統?!巴ㄟ^了解潛在客戶的信息,從他們的大數據中發現用戶愛好、特征,然后向客戶推薦他們有可能喜歡的牛仔褲品牌以及類似商品,將客戶介紹到商店,基于對客戶信息的掌握,交易成功率被大大提高了。”
當挖掘社交媒體數據以獲得分析見解時,速度是至關重要的。有一篇報道談到過一個名字叫Blab的公司,該公司從社交媒體數據中提取信息,用以幫助廣告商或公關公司作主題預測,判斷哪些主題會有較好的傳播效果(像病毒一樣被傳播和擴散)、哪些會石沉大海。
Ugam是另一家物聯網公司,準確的說是一家分析應用開發商,這家總部在Texas的公司從物聯網和快數據中發現了商機,它通過分析來源于社交網絡的免費消費者數據,幫助零售商決定賣什么商品,以及將商品放在貨架的什么位置。當然,數據的來源也很重要,因此需要慎重選擇“監控”哪些社交網絡。
Ugam首席創新官Mihir Kittur告訴我們:“實際上,當想要從客戶那兒得到反饋來幫助商品定價、分類時,我們會覺得Twitter有點‘吵’,用戶的抱怨與普通的不相關信息摻雜在一起,數據太雜亂了。不過,Ugam也發現當把產品評論、Google+、Facebook以及Pinterest的數據整合到一起,可以為產品定價和分類提供更好的支持?!?/p>
零售業的高速發展為研究快數據理論、了解其獲利能力提供了方便。但當考慮研究快數據為人們提供幫助時,沒有哪個行業能比得上醫療行業,TIBCO的研究人員致力于構建快數據應用,從醫院數字化設備產生的大量信息中發現潛在模式。
TIBCO的Been告訴我們:“我們的客戶希望能將醫療設備產生的數據整合到一起,這樣可以更早地診斷出疾病,更早地為病人提供正確的治療方案,通過大數據技術挖掘數據中潛在的信息,了解疾病的傳播,還可以通過對實時數據分析發現疾病的臨床癥狀。”
雖然如今的Hadoop已成為大數據代名詞,但Hadoop不可能解決一切大數據問題,尤其是針對快速數據來說。TIBCO對Hadoop就不太感冒,該公司的首席技術官Matt Quinn在公司上個年度用戶會議上就告誡人們不要過分依賴“大象”――Hadoop。
Hadoop由于缺乏交互性和實時功能常常被人們抱怨,不過Hadoop也在努力地添加一些新的實時分析功能,也許將來Hadoop也能成為一個快數據平臺,還有兩個優秀的大數據技術也值得考慮――Apache Spark和Apache Storm。
Spark一直被看作MapReduce的替代者,獲得了多方的追捧。Spark目前已成為Hadoop數據平臺中重要的數據分析工具,相比MapReduce,Spark不僅更易于編寫代碼(支持Java、Python和Scala),而且速度更快,同時,Spark還為SQL(Shark)預先構建了hook函數,具有實時流媒體(Spark流)、機器學習(MLLib)和圖處理(GraphX)等多種功能。
MapR作為Hadoop軟件供應商,一直努力改進Hadoop技術以增強快數據的處理能力,MapR最近宣布了它與Databricks合作――將內存Apache Spark技術整合到Hadoop產品中,MapR的競爭對手Cloudera也將Spark加入了Hadoop中,Hortonworks則一直為Spark提供支持,預計在今年將為Spark提供全面的支持。
Storm在應對快數據處理方面具有優越的性能,使其具有很多追隨者。和Spark一樣,Storm為用戶提供各類的語言支持,包括Ruby、Python、JavaScript、Perl、PHP。
LivePerson是一家使用Storm技術的公司,為用戶提供基于Web的通信軟件。在近期的一個視頻中,Ido Shilon、LivePerson平臺工程組的團隊領導,解釋了該公司如何重建其后端基礎設施,以及如何使產品有更好的彈性等問題。
LivePerson實時系統的核心技術是Storm和Apache Kafka,還有Couchbase NoSQL數據庫。作為其信息進程初始化的一部分,該公司致力于收集所有會話信息,比如網站用戶來自哪兒,他們使用什么瀏覽器,他們訪問過哪些頁面等等,這些信息先通過Kafka流式處理,然后用Storm進行分析,最后以文檔的形式存儲在Couchbase數據庫中。最終,這三款產品將構建出它們的“智慧庫”,用于分析信息。
隨著物聯網的發展,應對快數據的困難將越來越大。物聯網會給我們帶來更多的快數據,機器產生的數據量會超出我們想象,而且這些數據既不直觀也不易于使用,但這一切將為那些以數據驅動業務的公司帶來更強的競爭力。誰先做好準備,誰就能在競爭中獲得優勢。
以“ 云計算大數據 推動智慧中國 ”為主題的 第六屆中國云計算大會 將于5月20-23日在北京國家會議中心隆重舉辦。產業觀察、技術培訓、主題論壇、行業研討,內容豐富,干貨十足。票價折扣還剩最后5天,過后將恢復原價,需要購買的朋友,請抓住這最后的機會,點擊報名!