《[機器學習]信息熵、信息增益的概念》由會員分享,可在線閱讀,更多相關《[機器學習]信息熵、信息增益的概念(3頁珍藏版)》請在裝配圖網(wǎng)上搜索。
1、
[機器學習]信息熵、信息增益的概念
信息熵
信息熵表示隨機變量的不確定性。
不確定性越大(即所謂的信息量越大),信息熵越大。
信息可不可以量化?
首先從直覺上來講,是可以的。不然我們怎么覺得有的人廢話特別多,卻沒什么信息量;而有的人一語中的,一句話就傳達了很大的信息量。
為什么有的信息大,有的信息?。?
有些事情本來不是很確定:例如明天股票是漲是跌;
1)“明天NBA決賽開始了“,和“股票跌漲“沒關系,所以“明天NBA決賽開始了“對“股票跌漲“帶來的信息量很小。
2)但是“明天NBA決賽開始了“,“大家都不關注股票了,沒人坐莊有99%的股都會下跌“,這句話對“對票跌漲“帶來
2、的信息量很大。因為它使本來不確定的事情變得十分確定
而有些事情本來就很確定:例如每天太陽從東方升起;你再告訴我一百遍,這句話還是沒有信息量的。
因為這件事情不能更確定了
所以說信息量的大小跟事情的不確定性有關。
那么,不確定性的變化跟什么有關呢?
1. 跟事情的可能結果的數(shù)量有關
例如我們討論太陽從哪升起。本來就只有一個結果,我們早就知道,那么無論誰傳遞任何信息都是沒有信息量的。
當可能結果數(shù)量比較大時,我們得到的新信息才有潛力擁有大信息量。
2. 跟概率有關。
單看可能結果數(shù)量不夠,還要看初始的概率分布。例如一開始我就知道小明在電影院的有15*15個座位的A廳看電影。小明可
3、以坐的位置有225個,可能結果數(shù)量算多了??墒羌偃缥覀円婚_始就知道小明坐在第一排的最左邊的可能是99%,坐其它位置的可能性微乎其微,那么在大多數(shù)情況下,你再告訴我小明的什么信息也沒有多大用,因為我們幾乎確定小明坐第一排的最左邊了。
那么,怎么衡量不確定性的變化的大小呢?怎么定義呢?這個問題不好回答,但是假設我們已經(jīng)知道這個量已經(jīng)存在了,不妨就叫做信息量
那么你覺得信息量起碼該滿足些什么特點呢?
一,起碼不是個負數(shù)吧
不然說句話還偷走信息呢?
二,起碼0信息量口和0信息量口之間可以口相加叩巴!
假如你告訴我的第一句話的信息量是3,在第一句話的基礎上又告訴我一句話,額外信息量是4,那么
4、兩句話信息量加起來應該等于7吧!難道還能是5是9?
三,信息量是連續(xù)依賴于概率
剛剛已經(jīng)提過,信息量跟概率有關系,但我們應該會覺得,信息量是連續(xù)依賴于概率的吧!
就是說,某一個概率變化了0.0000001,那么這個信息量不應該變化很大。
四,新信息有更大的潛力具有更大的信息量
剛剛也提過,信息量大小跟可能結果數(shù)量有關。假如每一個可能的結果出現(xiàn)的概率一樣,那么對于可能結果數(shù)量多的那個事件,新信息有更大的潛力具有更大的信息量,因為初始狀態(tài)下不確定性更大。
那有什么函數(shù)能滿足上面四個條件呢?
負的對數(shù)函數(shù),也就是-log(x)!
底數(shù)取大于1的數(shù)保證這個函數(shù)是非負的就行。前面再隨便乘
5、個正常數(shù)也行。
a. 為什么不是正的?因為假如是正的,由于x是小于等于1的數(shù),log(x)就小于等于0了。第一個特點滿足。
b. 咱們再來驗證一下其他特點。三是最容易的。假如x是一個概率,那么log(x)是連續(xù)依賴于x的°done
c。四呢?假如有n個可能結果,那么出現(xiàn)任意一個的概率是1/n,而-log(1/n)是n的增函數(shù),沒問題。
d。最后驗證二。由于-log(xy)=-log(x)-log(y),所以也是對的。學數(shù)學的同學注意,這里的y可以是給定x的條件概率,當然也可以獨立于X。
Bytheway,這個函數(shù)是唯一的(除了還可以多乘上任意一個常數(shù)),有時間可以自己證明一下,或者查
6、書。
ok,所以我們知道一個事件的信息量就是這個事件發(fā)生的概率的負對數(shù)。
最后終于能回到信息熵。信息熵是跟所有可能性有關系的。每個可能事件的發(fā)生都有個概率。信息熵就是平均而言發(fā)生一個事件我們得到的信息量大小。所以數(shù)學上,信息熵其實是信息量的期望。(表達式參考其它答案或者看下面)
至于為什么用“熵”這個怪字?大概是當時翻譯的人覺得這個量跟熱力學的熵有關系,所以就用了這個字,君不見字里頭的火字旁?
而熱力學為什么用這個字?這個真心不知道。。。
信息增益
熵:表示隨機變量的不確定性。
條件熵:在一個條件下,隨機變量的不確定性。
信息增益:熵-條件熵
在一個條件下,信息不確定性減少的
7、程度!
通俗地講,X(明天下雨)是一個隨機變量,X的熵可以算出來,Y(明天陰天)也是隨機變量,在陰天情況下下雨的信息熵我們?nèi)绻仓赖脑?此處需要知道其聯(lián)合概率分布或是通過數(shù)據(jù)估計)即是條件熵。
兩者相減就是信息增益!原來明天下雨例如信息熵是2,條件熵是0.01(因為如果是陰天就下雨的概率很大,信息就少了),這樣相減后為
1.99,在獲得陰天這個信息后,下雨信息不確定性減少了1.99!是很多的!所以信息增益大!也就是說,陰天這個信息對下雨來說是很重要的!
所以在特征選擇的時候常常用信息增益,如果IG(信息增益大)的話那么這個特征對于分類來說很關鍵??決策樹就是這樣來找特征的!
參考
感謝知乎的朋友[滴水]、[KayZhou]