機器學習實戰――Logistic回歸
來源:程序員人生 發布時間:2015-05-21 07:56:33 閱讀次數:4057次
回歸概述(個人理解的總結)
回歸是數學中的1種摹擬離散數據點的數學模型的方法,擬合1個連續的函數從而可以對未知的離散數據點進行分類或預測。這類方法有1個統1的情勢,給定n維特點的數據集合,對任意1個數據點Xi={x(1)i,x(2)i,...,x(n)i}的每一個維度都有1個回歸系數wi與之對應,全部模型就存在1個系數向量w={w1,w2...wn}。如果是系數向量w與特點Xi的線性組合,那末就是1個n空間下的超平面,如果對應分類問題,那末這個超平面就是分類器的決策平面(分類超平面)。由于線性組合存在常數項,1般為了情勢統1,將常數項b通過1個x0=1加進系數向量成為w0。
Lotistic回歸是經典分類方法,與感知機算法、SVM算法等都是上述的對每一個維度的特點進行線性組合,找出決策平面,從而也都是辨別式方法。這些方法在訓練數據下分別使用不同的決策函數,然后歸結為最優化問題,1般使用迭代方法進行,經常使用的有梯度降落法、牛頓法、擬牛頓法等。
Logistic回歸模型
Sigmoid函數
在之前的博客中感知機方法使用的是符號函數f(x)=sign(x),Logistic回歸方法使用的是階躍函數,函數輸出的是的兩個不同種別的幾率值{0,1},中斷的階躍函數使用最多的就是Heaviside Step函數,但是不連續的特性對最優化求解中的求導數不方便。因此使用的是連續的具有階躍函數類似性質Sigmoid函數:
Sigmoid(z)=11+e?z
該函數定義域為全實數域,任意次連續可微,以點
(0,0.5)為對稱點。當任意1個輸入
z很大時函數值趨于1,反之趨于0,在
z=0時為0.5代表對輸入值在兩個種別的可能性相當,這些性質是的它非常合適作為分類決策函數。因此,1般當輸出值大于或等于0.5時就分類到正類,否則就分到負類。
2分類Logistic模型
分類模型由條件幾率P(Y|X)表示,其中Y∈{0,1}代表兩個種別,對給定輸入X=x:
P(Y=1|X=x)=11+e?wx
P(Y=0|X=x)=1?11+e?wx=11+ewx
其中
w={w0,w1.....wn},w0代表常數項,
x={x0,x1...xn},x0=1。對給定的輸入,可以分別求得上述兩個幾率值,通過比較上述哪一個幾率值更大,就將輸入分到相應種別。也就是Logistic回歸模型將特點的線性組合轉換為兩個種別的幾率,線性組合的值越接近于正無窮,幾率值越接近1;線性組合的值越接近負無窮,幾率值越接近0。
另外,1個事件產生的幾率與不產生的幾率比值稱為概率(odds ratio),取對數以后稱為log-odds-ratio,而Logistic回歸模型對正類(事件產生)幾率和負類(事件不產生)幾率的比值以下:
logP(Y=1|X)P(Y=0|X)
生活不易,碼農辛苦
如果您覺得本網站對您的學習有所幫助,可以手機掃描二維碼進行捐贈
------分隔線----------------------------
------分隔線----------------------------