陳詞濫調決策樹。提到決策樹,不能不說不純度的概念。
回歸不純度
分類不純度
熵不純度:
Gini不純度:
錯分不純度:
決策樹是1個統稱,其實它包括若干類,常見的種類有: ID3、C4.5 和CART,說說各自特點:
ID3: 1986 Ross Quinlan提出,采取 熵不純度規則分裂節點,通常分支因子
C4.5: 為ID3改進版本,特點值可以處理連續變量,采取信息熵增益比。
CART:分類回歸樹,與ID3和C4.5最重要的區分便是,其能處理回歸問題,即數值預測。節點分裂準則采取Gini不純度。(其實,現在的CART算法,不純度模式是可選的)
由于CART的通用性,在1些機器學習庫中實現的決策樹絕大多數是CART樹,如opencv 和sklearn中。有必要系統的學習1下。以下以opencv為原型學習。
根據特點屬性和標簽屬性是數值型還是分類型,可將決策樹分為4類:
詳細講授請參照博文:opencv 決策樹源碼分析 http://blog.csdn.net/zhaocj/article/details/50503450