視乎已聽到或看到無數(shù)遍數(shù)據(jù)發(fā)掘了,那末,你知道那是甚么嗎?關(guān)于甚么是數(shù)據(jù)發(fā)掘,很多學(xué)者和專家給出了不同的定義,以下我們列出幾種常見的說法:
“簡單地說,數(shù)據(jù)發(fā)掘是從大量數(shù)據(jù)中提取或‘發(fā)掘’知識。該術(shù)語實(shí)際上有點(diǎn)用詞不當(dāng)。數(shù)據(jù)發(fā)掘應(yīng)當(dāng)更正確地命名為‘從數(shù)據(jù)中發(fā)掘知識’,不幸的是它有點(diǎn)長。許多人把數(shù)據(jù)發(fā)掘視為另外一個經(jīng)常使用的術(shù)語‘數(shù)據(jù)庫中知識發(fā)現(xiàn)’或KDD的同義詞。而另外一些人只是把數(shù)據(jù)發(fā)掘視為數(shù)據(jù)庫中知識發(fā)現(xiàn)進(jìn)程的1個基本步驟?!?――《數(shù)據(jù)發(fā)掘:概念與技術(shù)》(FreeEIM J. Han and M. Kamber)
“數(shù)據(jù)發(fā)掘就是對觀測到的數(shù)據(jù)集(常常是很龐大的)進(jìn)行分析,目的是發(fā)現(xiàn)未知的關(guān)系和以數(shù)據(jù)具有者可以理解并對其有價值的新穎方式來總結(jié)數(shù)據(jù)?!报D―《數(shù)據(jù)發(fā)掘原理》(David Hand, et al)
“應(yīng)用基于計(jì)算機(jī)的方法,包括新技術(shù),從而在數(shù)據(jù)中取得有用知識的全部進(jìn)程,就叫做數(shù)據(jù)發(fā)掘?!报D―《數(shù)據(jù)發(fā)掘--概念、模型、方法和算法》(Mehmed Kantardzic
openeim)
“數(shù)據(jù)發(fā)掘,簡單地說,就是從1個數(shù)據(jù)庫中自動地發(fā)現(xiàn)相干模式。”――《構(gòu)建面向CRM的數(shù)據(jù)發(fā)掘利用》(Alex Berson, et al)
“數(shù)據(jù)發(fā)掘(DM)是從大型數(shù)據(jù)庫中將隱藏的預(yù)測信息抽取出來的進(jìn)程。”――《數(shù)據(jù)發(fā)掘:機(jī)遇與挑戰(zhàn)》(John Wang)
而作為數(shù)據(jù)發(fā)掘領(lǐng)域的華人第1人,韓家煒教授在《數(shù)據(jù)發(fā)掘:概念與技術(shù)》的教學(xué)幻燈片中,給出1個更清晰的定義:“數(shù)據(jù)發(fā)掘,就是從大型數(shù)據(jù)庫中抽取成心義的(非平凡的,隱含的,之前未知的并且是有潛伏價值的)信息或模式的進(jìn)程。”
這里我們可以看到數(shù)據(jù)發(fā)掘具有以下幾個特點(diǎn):
l 基于大量數(shù)據(jù):并不是說小數(shù)據(jù)量上就不可以進(jìn)行發(fā)掘,實(shí)際上大多數(shù)數(shù)據(jù)發(fā)掘的算法都可以在小數(shù)據(jù)量上運(yùn)行并得到結(jié)果。但是,1方面太小的數(shù)據(jù)量完全可以通過人工分析來總結(jié)規(guī)律,另外一方面來講,小數(shù)據(jù)量常常沒法反應(yīng)出真實(shí)世界中的普遍特性。
l 非平凡性:所謂非平凡,指的是發(fā)掘出來的知識應(yīng)當(dāng)是不簡單的,絕不能是類似某著名體育評論員所說的“經(jīng)過我的計(jì)算,我發(fā)現(xiàn)了1個有趣的現(xiàn)象,到本場比賽結(jié)束為止,這屆世界杯的進(jìn)球數(shù)和失球數(shù)是1樣的。非常的偶合!”那種知識。這點(diǎn)看起來勿庸贅言,但是很多不懂業(yè)務(wù)知識的數(shù)據(jù)發(fā)掘新手卻常常犯這類毛病。
l 隱含性:數(shù)據(jù)發(fā)掘是要發(fā)現(xiàn)深藏在數(shù)據(jù)內(nèi)部的知識,而不是那些直接顯現(xiàn)在數(shù)據(jù)表面的信息。經(jīng)常使用的BI工具,例如報表和OLAP,完全可讓用戶找出這些信息。
l 新奇性:發(fā)掘出來的知識應(yīng)當(dāng)是之前未知的,否則只不過是驗(yàn)證了業(yè)務(wù)專家的經(jīng)驗(yàn)而已。只有全新的知識,才可以幫助企業(yè)取得進(jìn)1步的洞察力。
l 價值性:發(fā)掘的結(jié)果必須能給企業(yè)帶來直接的或間接的效益。有人說數(shù)據(jù)發(fā)掘只是“屠龍之技”,看起來神乎其神,卻甚么用途也沒有。這只是1種誤解,不可否認(rèn)的是在1些數(shù)據(jù)發(fā)掘項(xiàng)目中,或由于缺少明確的業(yè)務(wù)目標(biāo),或由于數(shù)據(jù)質(zhì)量的不足,或由于人們對改變業(yè)務(wù)流程的抵制,或由于發(fā)掘人員的經(jīng)驗(yàn)不足,都會致使效果不佳乃至完全沒有效果。但大量的成功案例也在證明,數(shù)據(jù)發(fā)掘的確可以變成提升效益的利器。
“數(shù)據(jù)發(fā)掘”這個術(shù)語是在甚么時候被大家普遍接受的,已難以考證,大約在上世紀(jì)90年代開始興起。其中還有1段趣話。在科研界,最初1直沿用“數(shù)據(jù)庫中的知識發(fā)現(xiàn)”(即KDD,Knowledge Discovery in Database
5z20)。在第1屆KDD國際會議中,委員會曾展開討論,是繼續(xù)沿用KDD,還是改名為Data Mining(數(shù)據(jù)發(fā)掘)?最后大家決定投票表決,采用票數(shù)多的1方的選擇。投票結(jié)果很有戲劇性,1共14名委員,其中7位投票同意KDD,另7位同意Data Mining。最后1位元老提出“數(shù)據(jù)發(fā)掘這個術(shù)語過于含糊,做科研應(yīng)當(dāng)要有知識”,因而在科研界便繼續(xù)沿用KDD這個術(shù)語。而在商用領(lǐng)域,由于“數(shù)據(jù)庫中的知識發(fā)現(xiàn)”顯得過于冗雜,就普遍采取了更加通俗簡單的術(shù)語――“數(shù)據(jù)發(fā)掘”。
嚴(yán)格地說,數(shù)據(jù)發(fā)掘其實(shí)不是1個全新的領(lǐng)域,它很有點(diǎn)“新瓶裝舊酒”的意味。組成數(shù)據(jù)發(fā)掘的3大支柱包括統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)和數(shù)據(jù)庫等領(lǐng)域內(nèi)的研究成果,其它還包括了可視化、信息科學(xué)等內(nèi)容。數(shù)據(jù)發(fā)掘納入了統(tǒng)計(jì)學(xué)中的回歸分析、辨別分析、聚類分析和置信區(qū)間等技術(shù),機(jī)器學(xué)習(xí)中的決策樹、神經(jīng)網(wǎng)絡(luò)等技術(shù),數(shù)據(jù)庫中的關(guān)聯(lián)分析、序列分析等技術(shù)。
原文:程序員怎能不知道甚么是數(shù)據(jù)發(fā)掘