【編者按】作者Jesse Anderson是Cloudera的課程設計師和講師,他利用NFL的“Play-by-Play”數據集,分析自己對橄欖球的一些錯誤認識,提醒我們“見解”并不等于現實,數據分析是決策的必要環節。數據分析幫助我們打破主觀假設和先入之見,讓決策從“藝術”變成了一門“科學”。以數據驅動的業務決策確保了決策的可靠性,數據分析才是決策的最終解決方案。
CSDN推薦:歡迎免費訂閱《Hadoop與大數據周刊》獲取更多Hadoop技術文獻、大數據技術分析、企業實戰經驗,生態圈發展趨勢。
以下是譯文:
那些圍繞著大數據亂七八糟的討論是不是讓你感到心煩?對理解信息驅動業務的重要性是不是也有些力不從心?數據的意義很大程度上在于對主觀假設和先入為主觀念的挑戰,確保業務決策的正確性。
最近,我分析了 NFL的“Play-by-Play”數據集,測試一下我對橄欖球一些先入為主的見解。我看橄欖球已經很多年了,而且像很多人一樣,我對比賽、團隊統計、天氣和體育場條件等有著長期先入為主的觀念。
我對圍繞高海拔地區的橄欖球比賽有著長期的偏見,比如在Denver的Mike High Stadium的那些比賽,Denver的 Mike High Stadium坐落在海拔 5130 英尺的地方(NFL體育場館的平均海拔是526英尺)。海拔較高意味著氧氣稀薄,影響到運動員在比賽中的表現。
在今年 Broncos vs. Ravens的常規賽中,可以看到球員通過吸入純氧來防止高原反應。這引起了我的一些思考:海拔的高低真的會影響比賽表現嗎?可以用數據證明嗎?
挑戰先入之見
當我開始處理NFL數據集時,我假設在某處的比賽如果換在別的地方進行,實際上會出現不同的結果。我查過在Denver和其他地區比賽的平均得分以及比賽的各種數據(傳球、跑動等等)。我沒有發現明顯的差別,除了在Denver的比賽中傳球成功率提高了1%。數據證實我對海拔高度影響橄欖球比賽的偏見是錯誤的。
我還以為橄欖球在最后一次進攻時,教練會選擇棄踢(punt)。在最后一次進攻時,如果球隊仍然決定冒險試一試,評論員們就可以對比賽大作文章了,因為這和主流的想法不一致。不過,數據表示,冒險試一試的情況更經常發生:只有15%的教練在最后一次進攻時選擇棄踢。
更大的球場意味著會有更多的粉絲,主場球隊理所當然的應取得更好的成績,不是嗎?數據又一次駁斥了這種觀念。數據表明,在小型體育場比賽其實會比在大型體育場平均取得更高的分數:20.55:17.9。
這些例子表明,利用數據分析可以確保運作依據現實,而不是假設。對于沒有數據支持的業務,你可能會有一些先入之見。不管是比賽還是業務,是否有精確數據的支持可能意味著成功或失敗。數據是做出明智決策的關鍵。
看到結果
比賽有趣就是因為比賽結果不能被預先決定。無論在哪個比賽日,每個隊都會有獲勝的可能。一場橄欖球比賽可以被分為很多次進攻,進攻組試圖攻到前場得分,防守組則阻止他們得分。
上述餅圖顯示球隊的平均攻防效率。棄踢也是比較常見的結局。當團隊決定棄踢時,防守組則開始行動阻止進攻組得分。數據顯示這時進攻如果是達陣(EXTRAPOINT)得分,成功率達到了18%,如果是任意球(FIELDGOAL)得分,成功率達到了15%。
看一下進攻有多少次產生了“non-standard”結果也很有意思。這些導致進攻的結局都是防守組不愿看到的,例如攔截(INTERCEPTION),這種情況成功的可能性為7%。
開始碼線嚴重影響進攻的結果。上圖顯示基于進攻開始碼線得分的百分比指數。在此圖中,從1碼線進攻得分是最近的,從100 碼線進攻得分是最遠的。正如期望的那樣,通過碼線最多的進攻,想要得分也最難。在紅區開始進攻(20碼線和更接近碼線)有78%的成功率。相反,從80碼線或更遠碼線開始的進攻就只有21%的成功率。更遠的進攻被截取的可能性高了2.6倍――因為有更多碼,所以沿途出錯的機會也更多。
橄欖球進攻的結果很像銷售的業務成果:如果沒有分析,你可能已經在99碼線就開始推銷,銷售轉化率很低,同行競爭者也很有可能竊取你的銷售成果。通過分析數據,你可以將你的銷售更接近紅區――達陣得分。
用更多的數據擴大數據集
原始的“Play-by-Play”數據集包含了有關特定的比賽的詳細信息,如碼線、日期和涉及的小組。使用此數據集,能回答一些有趣的問題――例如,有多少進攻是以任意球接結束的――但想要回答其它問題就難了。
比賽的結果不僅取決于場上帶球奔跑的運動員。還有其他的許多影響因素,像天氣和草皮類型,這在最初的NFL數據集中使沒有的,所以我又在其中增加了天氣和體育館數據,然后進行了一系列的查詢,以了解天氣對比賽的影響。
數據顯示,在惡劣天氣下,Baltimore Ravens平均在主場取得的分數最高,平均21.7:14.2,然而Kansas City Chiefs的成績最差:23.8:28。沒有惡劣天氣時,Pittsburgh Steelers表現最好,以23.8:13.6獲勝。
將這個示例應用到業務操作中:不限制你向數據集尋求問題的類型和深度。相反,還可以考慮增大你的數據集,使它能夠回答更加復雜的問題。根據一開始你想要問的問題的類型來決定加入實現哪些查詢的新數據集。
教練和CEO
那么業務經理怎樣利用數據來提升一個團隊的實力呢?首先,他們需要決定數據驅動的團隊將是什么樣團隊。決策不像算法那樣運行(做出確定型的決策,可以給定一組數據)――應該利用數據確定或推翻我們的先入之見來輔助決策。
我對橄欖球的先入之見有時候是對的,但常常是錯的。如果教練的決策是基于我這樣不正確的假設將會帶來巨大的損失。
幸運的是,我們有這樣強大的工具,只要動動手指就能幫我們更快更簡單地從數據中獲得信息。像Hadoop這樣技術開辟了一個新的時代,使數據驅動的業務決策可以被實現――不管你的問題有多大,其中存在多么大的數據集和挑戰,數據提供了大量機會挑戰或確認我們對業務、社會(當然還有橄欖球)的先入之見。成為數據驅動的組織不僅能幫助你將你的業務打包分開,還會讓你有能力表現得更好、獲得更大的成功。
原文鏈接: Insights from the NFL’s Play-by-Play Dataset: What business leaders can learn from football?(編譯/毛夢琪 審校/仲浩)