有1句話是這樣說的,"An explanation of the data should be mad as simple as possible,but no simpler"。
在機(jī)器學(xué)習(xí)中其意義就是,對數(shù)據(jù)最簡單的解釋也就是最好的解釋(The simplest model that fits the data is also the most plausible)。
比如上面的圖片,右側(cè)是否是比左側(cè)解釋的更好呢?明顯不是這樣的。
如無必要,勿增實(shí)體
奧卡姆剃刀定律,即簡單有效原則,說的是,切勿浪費(fèi)較多東西去做,用較少的東西,一樣可以做好的事情。
所以,相比復(fù)雜的假定,我們更偏向于選擇簡單的、參數(shù)少的假定;同時,我們還希望選擇更加簡單的模型,使得有效的假定的數(shù)量不是很多。
另外一種解釋是,假定有1個簡單的假定H,如果它可以很好的辨別1組數(shù)據(jù),那末說明這組數(shù)據(jù)確切是存在某種規(guī)律性。
If the data is sampled in a biased way,learning will produce a similarily biased outcome.
這句話告知我們,如果抽樣的數(shù)據(jù)是有偏差的,那末學(xué)習(xí)的效果也是有偏差的,這類情形稱作是抽樣偏差。
在實(shí)際情況中,我們需要訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)來自同1散布。
為了不這樣的問題,我們可以做的是要了解測試環(huán)境,讓訓(xùn)練環(huán)境或說是訓(xùn)練數(shù)據(jù)和測試環(huán)境盡量的接近。
你在使用數(shù)據(jù)任何進(jìn)程都是間接的窺測了數(shù)據(jù),所以你在下決策的時候,你要知道,這些數(shù)據(jù)可能已被你頭腦中的模型復(fù)雜度所污染。
有效避免這類情況的方法有:
- 做決定之前不要看數(shù)據(jù)
- 要時刻存有懷疑
轉(zhuǎn)載請注明作者Jason Ding及其出處
Github主頁(http://jasonding1354.github.io/)
CSDN博客(http://blog.csdn.net/jasonding1354)
簡書主頁(http://www.jianshu.com/users/2bd9b48f6ea8/latest_articles)