貝葉斯分類器
貝葉斯分類器的分類原理是通過某對象的先驗概率,利用貝葉斯公式計算出其後驗概率,即該對象屬於某一類的概率,選擇具有最大後驗概率的類作為該對象所屬的類。
貝葉斯定理公式:P(A|B)=P(B|A)*P(A)/P(B)
貝葉斯網絡是一個帶有概率註釋的有向無環圖,圖中的每一個結點均表示一個隨機變量,圖中兩結點間若存在着一條弧,則表示這兩結點相對應的隨機變量是概率相依的,反之則説明這兩個隨機變量是條件獨立的。網絡中任意一個結點X 均有一個相應的條件概率表(Conditional Probability Table,CPT),用以表示結點X 在其父結點取各可能值時的條件概率。若結點X 無父結點,則X 的CPT 為其先驗概率分佈。貝葉斯網絡的結構及各結點的CPT 定義了網絡中各變量的概率分佈。
貝葉斯分類器是用於分類的貝葉斯網絡。該網絡中應包含類結點C,其中C 的取值來自於類集合( c1 , c2 , ... , cm),還包含一組結點X = ( X1 , X2 , ... , Xn),表示用於分類的特徵。對於貝葉斯網絡分類器,若某一待分類的樣本D,其分類特徵值為x = ( x1 , x2 , ... , x n) ,則樣本D 屬於類別ci 的概率P( C = ci | X1 = x1 , X2 = x 2 , ... , Xn = x n) ,( i = 1 ,2 , ... , m) 應滿足下式:
P( C = ci | X = x) = Max{ P( C = c1 | X = x) , P( C = c2 | X = x ) , ... , P( C = cm | X = x ) }
而由貝葉斯公式:
P( C = ci | X = x) = P( X = x | C = ci) * P( C = ci) / P( X = x)
其中,P( C = ci) 可由領域專家的經驗得到,而P( X = x | C = ci) 和P( X = x) 的計算則較困難。
應用貝葉斯網絡分類器進行分類主要分成兩階段。第一階段是貝葉斯網絡分類器的學習,即從樣本數據中構造分類器,包括結構學習和CPT 學習;第二階段是貝葉斯網絡分類器的推理,即計算類結點的條件概率,對分類數據進行分類。這兩個階段的時間複雜性均取決於特徵值間的依賴程度,甚至可以是NP 完全問題,因而在實際應用中,往往需要對貝葉斯網絡分類器進行簡化。根據對特徵值間不同關聯程度的假設,可以得出各種貝葉斯分類器,Naive Bayes、TAN、BAN、GBN 就是其中較典型、研究較深入的貝葉斯分類器。
在具有模式的完整統計知識條件下,按照貝葉斯決策理論進行設計的一種最優分類器。分類器是對每一個輸入模式賦予一個類別名稱的.軟件或硬件裝置,而貝葉斯分類器是各種分類器中分類錯誤概率最小或者在預先給定代價的情況下平均風險最小的分類器。它的設計方法是一種最基本的統計分類方法。
/>
/> 最小錯誤概率貝葉斯分類器
/> 把代表模式的特徵向量x分到c個類別(ω1,ω2,...,ωc)中某一類的最基本方法
/> 貝葉斯分類器
/>
/> 貝葉斯分類器
/> 是計算在 x的條件下,該模式屬於各類的概率,用符號P(ω1|x),P(ω2|x),...,P(ωc|x)表示。比較這些條件概率,最大數值所對應的類別ωi就是該模式所屬的類。例如表示某個待查細胞的特徵向量 x屬於正常細胞類的概率是0.2,屬於癌變細胞類的概率是0.8,就把它歸類為癌變細胞。上述定義的條件概率也稱為後驗概率,在特徵向量為一維的情況下,一般有圖中的變化關係。當 x=x*時,P(ω1|x)=P(ω2|x)對於 x>x*的區域,由於P(ω2|x)>P(ω1|x)因此x屬ω2類,對於x
P(ω2|x),x屬ω1類,x*就相當於區域的分界點。圖中的陰影面積就反映了這種方法的錯誤分類概率,對於以任何其他的 x值作為區域分界點的分類方法都對應一個更大的陰影面積,因此貝葉斯分類器是一種最小錯誤概率的分類器
/> 貝葉斯分類器
/>
/> 一般情況下,不能直接得到後驗概率而是要通過貝葉斯公式
/> 公式
/>
/> 公式
/> 進行計算。式中的P(x│ωi)為在模式屬於ωi類的條件下出現x的概率密度,稱為x的類條件概率密度;P(ωi)為在所研究的識別問題中出現ωi類的概率,又稱先驗概率;P(x)是特徵向量x的概率密度。分類器在比較後驗概率時,對於確定的輸入x,P(x)是常數,因此在實際應用中,通常不是直接用後驗概率作為分類器的判決函數gi(x)(見線性判別函數)而採用下面兩種形式:
/> 對所有的c個類計算gi(x)(i=1,2,...,c)。與gi(x)中最大值相對應的類別就是x的所屬類別。
/>
/> 最小風險貝葉斯分類器:由於客觀事物的複雜性,分類器作出各種判決時的風險是不一樣的。例如將癌細胞誤判為正常細胞的風險就比將正常細胞誤判為癌細胞的風險大。因此,在貝葉斯分類器中引入了風險的概念。在實際應用中根據具體情況決定各種風險的大小,通常用一組係數Cij來表示。Cij表示分類器將被識別樣本分類為ωi,而該樣本的真正類別為ωj時的風險。設計最小風險分類器的基本思想是用後驗概率計算將 x分類為ωi的條件風險
/> 貝葉斯分類器
/>
/> 貝葉斯分類器
/> 比較各Ri(x)的大小,與最小值對應的類別是分類的結果。評價這種分類器的標準是平均風險,它的平均風險最小。在實際應用時,後驗概率是難以獲得的,根據模式類別的多少和Cij的取值方式,可設計出各種分類器,例如模式為兩類時,判別函數為
/> 判別函數
/>
/> 判別函數
/> 如果選擇C11和C22為零,C12和C21為1,它就是兩類最小錯誤概率分類器。實際上,最小錯誤概率分類器是最小風險分類器的一種特殊情況。
/> 設計貝葉斯分類器的關鍵是要知道樣本特徵 x的各種概率密度函數。條件概率密度函數為多元正態分佈是研究得最多的分佈。這是由於它的數學表達式易於分析,在實際應用中也是一種常見的分佈形式。經常使用參數方法來設計正態分佈的判別函數。
/>
相關文章
-
分貝是什麼意思和分貝測試儀
分貝是電學和聲學計量中的一個單位。即兩種電或聲功率之比或兩種電壓或電流值或類似聲量之比;分貝還是一種測量聲音相對響度的單位。分貝用dB表示。下面是小編整理的分貝是什麼意思和分貝測試儀,歡迎大家閲讀! 分貝[d -
服務器是什麼-服務器分類-服務器特徵
導語:服務器相信很多電腦愛好者都聽過或者瞭解一些,一般我們很難看到真正的服務器,那麼什麼是服務器?下面文章為小編精心整理,歡迎借鑑!服務器是什麼_服務器分類_服務器特徵服務器簡介服務器,也稱伺服器,是提供計算服務的設 -
怎麼設置貝爾金路由器-貝爾金路由器設置圖文詳細教程
貝爾金公司擁有最全面的 IT 外設配件產品,包括寬帶網絡、 KVM 、線纜、防湧接線板和 UPS ,更致力於用最先進的 USB 、 Firewire?® 和 Bluetooth™ 技術為移動電話、 PDA 、 iPod™ 和其它移動設備提供連 -
《樹葉分類》課後反思
辯論會,相信有很多人聽説過這個詞語,有的人一生都不會參與辯論會,可就在今天,我有幸就觀看了這麼一場“精彩的辯論會”。上語文課的時候,高老師講了一篇較短但有意思的文言文《陳太丘與友期行》,這篇文言文大概內容是陳太丘 -
貝爾金無線路由器如何設置上網-貝爾金無線路由器設置圖文教程
Belkin(貝爾金) 公司是一家美國公司,國內也有部分朋友有用到它的一個路由器,貝爾金雖然是洋貨,但是路由器設置的基本理念還是一樣的!網線連接—》電腦IP設置-》路由器設置-》連接上網。下面是貝爾金無線路由器設置圖文教程,一 -
專業版淘寶旺鋪寶貝分類不顯示怎麼解決
篇一本文探討了農業旅遊的概念內涵,明確農業旅遊的特點,以及對發展我國農村經濟的重要影響力,提出了進行農業旅遊項目策劃的策劃要點,以及農業旅遊項目的管理途徑。一、農業旅遊的概念和內涵(一)“農業旅遊”與“鄉村旅遊 -
安然無恙歌詞-葉貝文
你有聽過歌手葉貝文的《安然無恙》嗎?小編覺得還不錯,推薦給大家。那麼這首歌的歌詞講述了什麼呢?本站小編為大家收集了《安然無恙歌詞》,歡迎大家聆聽欣賞!安然無恙 - 葉貝文詞:崔恕曲:魯士郎有些亂 有些慌 你説不要這樣 -
什麼是服務器系統-服務器系統的分類
你知道服務器系統什麼,有哪些類別。下面本站小編為大家收集整理的相關資料。歡迎大家閲讀!!!什麼是服務器系統服務器系統(server system)通常來講是指安裝在服務器上的操作系統,比如安裝在Web服務器、應用服務器和數據 -
計算機路由器的分類及安裝步驟
那一年我們的夢想,夢想着考大學、談戀愛或者在流浪中享受自由,那時候我們在高中的課桌旁向同桌閒扯。那一年我們的夢想,夢想着找一份工作、一個愛人或者在陌生的城市建一個自己的家。那時候我們在高中的操場上向天空 -
什麼是服務器系統-服務器系統的分類是哪些
服務器,也稱伺服器,是提供計算服務的設備。由於服務器需要響應服務請求,並進行處理,因此一般來説服務器應具備承擔服務並且保障服務的能力。下面是本站小編為您整理的關於服務器系統的相關資料,歡迎閲讀!什麼是服務器系統