現在隨著移動互聯網、物聯網的發展,數據無時不刻不在產生。包括個人用戶的手機、可穿戴設備等;也包括行業應用的傳感器、監控攝像頭等信息。數字化將物理世界的模擬信息轉化為數字信息,數字世界與現實世界的融合過程中產生和積累了大量的數據。全球所有信息數據中90%產生于過去兩年。2013年每天全球產生25PB數據,相當于1500個國家圖書館信息量的總和。全球的數據總量從2003年的5EB,快速增長到2012年2.7ZB,并將于2020年達到40ZB。這些數據往往被人們比作海上漂浮著的冰山,因其巨大的價值隱藏在水面以下。
免費訂閱“CSDN云計算”微信公眾號,實時掌握第一手云中消息!
CSDN作為國內最專業的云計算服務平臺,提供云計算、大數據、虛擬化、數據中心、OpenStack、CloudStack、Hadoop、Spark、機器學習、智能算法等相關云計算觀點,云計算技術,云計算平臺,云計算實踐,云計算產業資訊等服務。
如陳尚義在大會上所講,任何數據的產生都有其最初的目的,這就是它們的第一價值,當這些數據迅速積累起來,它們將能產生第二、第三價值。這背后就需要有效的技術來發現、挖掘。比如網上相冊,其第一價值在于為網民提供存儲服務。照片多起來后,我們就可以從中發現當時的流行色,甚至可以預測以后的流行趨勢。再例如,可穿戴設備可以24小時監控我們的身體,它的第一價值是記錄自己的身體狀況,用句時髦的話說,就是“量化自我”。但如果能將一段較長時間的數據綜合分析,我們可能發現健康的情況,并為我們提供預警。
大數據的兩個重要特點:數據量大,增速快。根據麥肯錫的報告,到2020年醫療數據將急劇增長到35ZB,相當于2009年數據量的99倍。根據交通部的數據,某省高速公路視頻監控數據每天50T。這些數據的產生也有其第一價值。如醫療數據是為了患者就診,視頻監控數據是為了事后的追溯。當他們的第一價值被利用之后,這些數據一般就被束之高閣。逐漸,這些數據成為了行業的負擔。但事實上,這些數據仍然有寶貴的價值。如何發現這數據隱藏的價值,成為了行業的難題之一。
在面對自己的數據冰山中的價值,各行業對數據價值的挖掘做出了一些實際行動。陳尚義在演講中總結出企業實踐中存在的一些誤區。許多傳統行業仍然局限在小數據的開發和利用,將小數據當成大數據,未涉及全面、完整和系統的大數據本質。將傳統的數據處理手段和技術當成大數據技術,未有大數據時代帶來的新特征。這時候,傳統行業需要看清大數據的特點,開發新的工具和新的平臺,滿足數據規模大、結構復雜和高速膨脹的需求。所以,傳統行業亟需大數據技術和能力挖掘行業數據的新價值。
百度是如何挖掘其數據冰山下的價值金礦呢?陳尚義舉了幾個很有趣的例子。作為搜索引擎起家的百度,將人與信息連接起來,天然就是一個大數據公司。首先作為搜索引擎,百度需要收集互聯網上的數據。為了方便人們檢索信息而被存儲下來的大量文本、圖片、影音等不同結構的數據。像以前我們搜索某個關鍵詞,結果出來的都是一個個單調的鏈接。想要查相關視頻,還得另外搜索。現在,百度利用自己的數據挖掘及人工智能技術將這些不同類型的網絡數據關聯起來,于是產生了一種叫“知識圖譜”的結果。比如現在用百度搜索“中國好聲音”,結果出現的不僅僅是對這個節目的描述,還有歌手、歌曲、類似節目等結果。同樣的一次搜索,帶來的卻是各種形式的信息展示,這讓筆者眼前一亮。
同時,用戶的搜索行為也會留下信息,百度再將它們進行大數據的關聯分析,為人群畫像,發現人群的興趣點、特征等新的信息,反過來又可以從上千萬條推廣中為我們網民找到最相關的信息。這就是 百度司南。它使得廣告投放結果與用戶搜索關鍵字之間具有相關性,廣告投放商在百度投放的廣告更有效。對于未來,百度還利用自己的人工智能技術推出了 百度預測,有旅游城市、景點熱度的預測,還有高考專業、院校的預測等。筆者在網站上看到了百度的世界杯預測結果――巴西奪冠,讓我們拭目以待吧。
百度利用技術掀起了冰山,挖掘出了大數據資源中的金礦。最后陳尚義講,如今,大數據的發展已經進入到全新的數據挖掘階段。百度將這些大數據技術打包成為“ 百度大數據引擎”,開放為給行業社會。幫助傳統行業根據大數據的特點,利用大數據引擎的平臺,挖掘行業數據的新價值,助力產業升級。