Watson Analytics是IBM基于Watson認知技術(shù)構(gòu)建的1個創(chuàng)新云分析平臺,它為用戶提供了1系列自助式的分析服務,包括數(shù)據(jù)準備、數(shù)據(jù)探索、預測、構(gòu)建分析儀表盤等。Watson Analytics的1項重要特點是簡單易用的基于自然語言的自助式分析,使得“人人都能做分析“,即使是不懂IT的人士。在體驗這項服務時,用戶只需要上傳數(shù)據(jù),點擊“探索Explore”,Watson Analytics就會分析數(shù)據(jù),用自然語言羅列出用戶可能感興趣的1系列問題。點擊其中的問題,Watson Analytics會針對該問題,展現(xiàn)出精美的圖表,和用戶進行交互式的分析。然后,用戶可以利用“預測Predict”功能進1步做深入分析,或通過“組合Assemble”功能,組合1系列的分析圖表進行綜合分析。
最近,筆者試用了1下Watson Analytics服務,雖然目前Watson Analytics的自然語言部份還不支持中文,但Watson Analytics易用、直觀的啟發(fā)式自助分析服務,還是給人留下非常深入的印象。下面就讓我們1起體驗1下吧。
數(shù)據(jù)準備
根據(jù)Watson Analytics社區(qū)的1篇教程,筆者使用的數(shù)據(jù)是下載自 www.happyplanetindex.org 的各國的幸福指數(shù)數(shù)據(jù)(不代表官方數(shù)據(jù),這里純潔作為學習使用。)目前網(wǎng)站的數(shù)據(jù)時間大約是2010⑵012年的,很多數(shù)據(jù)是根據(jù)蓋洛普Gallup等咨詢公司的問卷調(diào)查統(tǒng)計得到的。
數(shù)據(jù)是1個簡單的Excel表格,共11個字段,字段描寫如上圖,數(shù)據(jù)中包括各個國家的HPI(Happy Planet Index)幸福指數(shù)和排名,和1些相干數(shù)據(jù)例如人均GDP,人口,生活水平期望指數(shù),生態(tài)足跡(Footprint gha/capita這個指標8卦幾句,指標評估人均對生態(tài)的影響,是個有趣的指標,有興趣的同學可以在 http://ecologicalfootprint.org/Global%20Footprint%20Calculator/GFPCalc.html網(wǎng)站計算自己的生態(tài)足跡。)
數(shù)據(jù)分析
數(shù)據(jù)準備好了,讓我們開始分析吧!分析前需要在Watson Analytics上注冊1個免費的試用賬號,https://watson.analytics.ibmcloud.com/。注冊登錄后,進到歡迎頁面,點擊Add,然后選擇Desktop,選擇你的Excel數(shù)據(jù)文件,選擇Upload,頁面顯示Transfer,完成后數(shù)據(jù)就緒了。
下面點擊Explore開始分析。甚么?還沒有建模,還沒有設計報表格式?對不起,在Watson Analytics上真的不需要。更欣喜的是,點擊Explore后,Watson Analytics會分析Excel數(shù)據(jù),并且通過自然語言處理,生成1系列你可能感興趣的問題(英文顯示,這里翻譯成中文易于理解),例如:
讓我們首先點擊第1個問題:各個國家的幸福年份數(shù)是多少?(What are the values of Happy Life Years by Country?) Watson Analytics 會自動辨認我們數(shù)據(jù)中包括國家數(shù)據(jù),通過世界地圖展現(xiàn) :
其中,色彩越深的部份代表這個國家幸福的年份越久。好吧,這項數(shù)據(jù)明顯老牌發(fā)達國家占優(yōu)勢。那末撇開歷史,活在當下的話,哪些國家更幸福?
點擊圖中的分析指標”Happy Life Years”,從下拉菜單中將指標替換“Happy Planet Index”,圖形產(chǎn)生了變化,現(xiàn)在顯示的是當下的各個國家的幸福指數(shù):
嗯,明顯金磚4國為首的發(fā)展中國家當下更幸福。
下面我們想找出那些對幸福生活標準期望高而且現(xiàn)實也確切生活幸福(夢想成真)的國家,回到開始的界面,點擊另外一個問題:哪些國家的幸福生活期望指數(shù)和幸福指數(shù)都比較高?(Which countries have high measurements for life expectancy and well-being?) 我們得到了下圖:
這里縱軸代表幸福感(Well-being),橫軸代表對幸福生活的期望(Life Expectancy),因此越靠近右上角的國家在兩個指標上都越高,越接近夢想成真了。這里有丹麥(Denmark),加拿大(Canada),哥斯達黎加(Costa Rica)…
慢著,為何氣泡有大有小?原來圖里還有1個玄機,這里氣泡大小代表了另外一個指標:生態(tài)足跡(Footprint),氣泡越大代表人均生態(tài)足跡越高,即對環(huán)境影響越大。光幸福還不夠,幸福不能以破壞自然環(huán)境為代價,保持可延續(xù)發(fā)展,才能延續(xù)幸福。比較1下右上限的氣泡大小,我們發(fā)現(xiàn)哥斯達黎加實在是人類楷模,不但幸福指數(shù)高,而且那個氣泡比起丹麥,加拿大小了幾圈呢,說明人家對生態(tài)環(huán)境的影響還要小,給個大拇指吧!
說到幸福感(Well-being),腦中不由浮起了那首歌“幸福在哪里?”,那末幸福感和哪些因素有關(guān)呢?是財富嗎?讓我們點開這個問題:幸福指數(shù)和人均GDP關(guān)系大嗎?(What is the relationship between Well-being and GDP/capita by Country?),出現(xiàn)了下圖:
這里縱軸代表人均GDP,越靠上越高,橫軸代表幸福感(Well-being),越靠右越幸福。先看看右上角,丹麥,芬蘭,奧地利,比利時,還有加拿大,澳大利亞,這些國家不但富有而且幸福指數(shù)高。那末難道真的沒錢就沒幸福,還不給人窮著樂了?請看回右下角,哥斯達黎加,巴西,阿根廷這些國家,雖然說人均GDP只有15K左右,離右上角那些國家的40K人均GDP差了1倍多,但是幸福指數(shù)卻差距不大。看來幸福指數(shù)其實不由人均GDP決定,錢確切不是萬能的。
那末到底甚么才是幸福感的主要因素呢?
這里我們就需要用到Watson Analytics中的預測(Predict)功能了,回想1下我們的數(shù)據(jù),在Excel的每行數(shù)據(jù)中都含有幸福指數(shù),和相干的人均GDP,人口數(shù)量,人均生態(tài)足跡等數(shù)據(jù),我們可以建立1個預測模型,看看哪些相干變量對幸福指數(shù)影響最大。點擊預測(Predict)功能,把上述指標放進要預測的列表,然后開始預測,我們得到下圖:
這張圖對關(guān)聯(lián)指標進行了各種組合(縱軸的Sub Region),并分析了它們對幸福指數(shù)(橫軸)的影響。我們發(fā)現(xiàn)第1組指標對幸福感的影響是最強的。那末第1組中都有哪些因素?我們點擊最上面的橫條,具體來分析它:
在這張圖中,我們有了答案。圖中的標題顯示,原來對幸福指數(shù)貢獻最大的是生態(tài)足跡(Footprint)和幸福的年數(shù)(Happy Life Years),可信度是81%。圖中橫軸是生態(tài)足跡(Footprint),縱軸是幸福的年數(shù)(Happy Life Years),色彩越深代表幸福指數(shù)越高。對照這兩個指標,又以縱軸幸福的年數(shù)(Happy Life Years)影響更大,就是說幸福的年數(shù)越多,則繼續(xù)幸福的可能性越大。為何?難道幸福是可以遺傳的?非也,筆者的結(jié)論是只有每代人都努力減少生態(tài)足跡,減少對環(huán)境的破壞,保持長時間可延續(xù)發(fā)展,才能造福子孫后代,世代幸福。你贊同嗎?
如果對這個結(jié)論背后的算法感興趣,可以切換1下視圖,下圖中Watson Analytics會告知你它用的算法,由于我們需要分析的幸福指數(shù)是1個連續(xù)變量,Watson Analytics自動使用了線性回歸(Liner Regression)算法,建立了1個多階方程式來計算相干變量如人均GDP,生態(tài)足跡等因素與幸福指數(shù)之間的關(guān)系,并選擇了其中關(guān)聯(lián)性最緊密的組合。固然,這都是圖形背后的故事,Watson Analytics的強大的地方在于分析人員根本不需要關(guān)注復雜的模型和算法,1切都已自動化,用戶需要關(guān)注的只是分析結(jié)果和它的含義。
怎樣樣?通過本次對Watson Analytics分析服務的體驗,是否是對分析進程的易用性和基于自然語言的智能化引導印象深入?通過Watson Analytics,只要有數(shù)據(jù),點點按鈕,每一個人都可以進行數(shù)據(jù)分析,而且其實不需要關(guān)注精深的模型和算法。實際上,“看圖講故事”,透過精致的圖表,分析后面的業(yè)務含義,才是分析員真實的關(guān)注點,這不正是分析師們期待已久的下1代自助式分析嗎?
另外,本次體驗只使用了Watson Analytics基本的數(shù)據(jù)探索(Explore)和預測(Predict)服務,可以說只使用了Watson Analytics豐富服務的冰山1角。Watson Analytics上還提供了對數(shù)據(jù)的加工(Refine)服務,對各種分析結(jié)果進行綜合的組合(Assemble)服務,乃至可讓Watson根據(jù)分析結(jié)果生成使人佩服的故事。Watson Analytics還可以結(jié)合IBM Bluemix公有云上的服務1起使用,例如使用Bluemix的DashDB存儲更復雜更大量的數(shù)據(jù)源進行分析;進行社交數(shù)據(jù)、天氣數(shù)據(jù)、物聯(lián)網(wǎng)數(shù)據(jù)的分析等。目前,各行業(yè)的分析人員正在使用Watson Analytics構(gòu)建自己的創(chuàng)新分析利用。在Watson Analytics的社區(qū)中,有些有趣的案例使人腦洞打開,例如用到Watson Analytics來挑選球員,構(gòu)建自己攻守兼?zhèn)涞淖詈藐囆蚳ttps://community.watsonanalytics.com/dream-el-salvador-soccer-team/;
另外一個案例則分析讀個本科學歷對個人工作收入、工作時間的影響:
https://community.watsonanalytics.com/what-will-a-graduate-degree-give-me-exploring-the-american-time-use-survey-data-set/
筆者還有同事上傳自己的每個月開消來進行分析
有了數(shù)據(jù),有了Watson Analytics,分析如此簡單,人人都能成為數(shù)據(jù)分析師。不多說了,祝您圣誕快樂,1起為中國的幸福指數(shù)加分吧!