人工智能之隨機(jī)森林(RF)
通過上一篇文章《人工智能之決策樹》,我們清楚地知道決策樹(DT)是一類常見的機(jī)器學(xué)習(xí)方法。決策樹(DT)在人工智能中所處的位置:人工智能-->機(jī)器學(xué)習(xí)-->監(jiān)督學(xué)習(xí)-->決策樹。決策樹主要用來解決分類和回歸問題,但是決策樹(DT)會產(chǎn)生過擬合現(xiàn)象,導(dǎo)致泛化能力變?nèi)?。過擬合是建立決策樹模型時(shí)面臨的重要挑戰(zhàn)之一。鑒于決策樹容易過擬合的缺點(diǎn),由美國貝爾實(shí)驗(yàn)室大牛們提出了采用隨機(jī)森林(RF)投票機(jī)制來改善決策樹。隨機(jī)森林(RF)則是針對決策樹(DT)的過擬合問題而提出的一種改進(jìn)方法,而且隨機(jī)森林(RF)是一個(gè)最近比較火的算法。因此有必要對隨機(jī)森林(RF)作進(jìn)一步探討。^_^

隨機(jī)森林(RF)在人工智能中所處的位置:人工智能-->機(jī)器學(xué)習(xí)-->監(jiān)督學(xué)習(xí)-->決策樹-->隨機(jī)森林。
隨機(jī)森林(RF)指的是利用多棵樹對樣本進(jìn)行訓(xùn)練并預(yù)測的一種分類器。該分類器最早由Leo Breiman和Adele Cutler提出,并被注冊成了商標(biāo)。

那么什么是隨機(jī)森林?
隨機(jī)森林(RandomForests)是一個(gè)包含多個(gè)決策樹的分類器,并且其輸出的類別是由個(gè)別樹輸出的類別的眾數(shù)而定。Leo Breiman和Adele Cutler發(fā)展并推論出隨機(jī)森林的算法。隨機(jī)森林(RF)這個(gè)術(shù)語是1995年由貝爾實(shí)驗(yàn)室的Tin Kam Ho所提出的隨機(jī)決策森林(random decision forests)而來的。這個(gè)方法則是結(jié)合 Breimans 的 "Bootstrap aggregating" 想法和 Ho 的"random subspace method"以建造決策樹的集合。

通過定義我們知道,隨機(jī)森林(RF)要建立了多個(gè)決策樹(DT),并將它們合并在一起以獲得更準(zhǔn)確和穩(wěn)定的預(yù)測。隨機(jī)森林的一大優(yōu)勢在于它既可用于分類,也可用于回歸問題,這兩類問題恰好構(gòu)成了當(dāng)前的大多數(shù)機(jī)器學(xué)習(xí)系統(tǒng)所需要面對的。
隨機(jī)森林是集成學(xué)習(xí)的一個(gè)子類,它依靠于決策樹的投票選擇來決定最后的分類結(jié)果。集成學(xué)習(xí)通過建立幾個(gè)模型組合的來解決單一預(yù)測問題。集成學(xué)習(xí)的簡單原理是生成多個(gè)分類器/模型,各自獨(dú)立地學(xué)習(xí)和作出預(yù)測。這些預(yù)測最后結(jié)合成單預(yù)測,因此優(yōu)于任何一個(gè)單分類的做出預(yù)測。

隨機(jī)森林的構(gòu)建過程:
假設(shè)N表示訓(xùn)練用例(樣本)個(gè)數(shù),M表示特征數(shù)目,隨機(jī)森林的構(gòu)建過程如下:
1) 輸入特征數(shù)目m,用于確定決策樹上一個(gè)節(jié)點(diǎn)的決策結(jié)果;其中m應(yīng)遠(yuǎn)小于M。
2) 從N個(gè)訓(xùn)練用例(樣本)中以有放回抽樣的方式,取樣N次,形成一個(gè)訓(xùn)練集,并用未抽到的用例(樣本)作預(yù)測,評估其誤差。
3) 對于每一個(gè)節(jié)點(diǎn),隨機(jī)選擇m個(gè)特征,決策樹上每個(gè)節(jié)點(diǎn)的決定都是基于這些特征確定的。根據(jù)m個(gè)特征,計(jì)算其最佳的分裂方式。
4) 每棵樹都會完整成長而不會剪枝,這有可能在建完一棵正常樹狀分類器后會被采用。
5) 重復(fù)上述步驟,構(gòu)建另外一棵棵決策樹,直到達(dá)到預(yù)定數(shù)目的一群決策樹為止,即構(gòu)建好了隨機(jī)森林。

其中,預(yù)選變量個(gè)數(shù)(m)和隨機(jī)森林中樹的個(gè)數(shù)是重要參數(shù),對系統(tǒng)的調(diào)優(yōu)非常關(guān)鍵。這些參數(shù)在調(diào)節(jié)隨機(jī)森林模型的準(zhǔn)確性方面也起著至關(guān)重要的作用。科學(xué)地使用這些指標(biāo),將能顯著的提高隨機(jī)森林模型工作效率。
影響性能因素:
1)森林中的每個(gè)樹越茂盛,分類效果就越好。
2)樹和樹的枝葉穿插越多,分類效果就越差。

隨機(jī)森林的隨機(jī)選取:
1)數(shù)據(jù)的隨機(jī)選?。簭脑嫉臄?shù)據(jù)集中采取有放回的抽樣,構(gòu)造子數(shù)據(jù)集。相同或不同子數(shù)據(jù)集的元素都可以重復(fù)。利用子數(shù)據(jù)集構(gòu)建子決策樹,將這個(gè)數(shù)據(jù)放到每個(gè)子決策樹中,每個(gè)子決策樹輸出一個(gè)結(jié)果。新的數(shù)據(jù)需要通過隨機(jī)森林得到分類結(jié)果,通過對子決策樹的判斷結(jié)果的投票,得到隨機(jī)森林的輸出結(jié)果。
2)待選特征的隨機(jī)選?。弘S機(jī)森林中子樹的每一個(gè)分裂過程并沒有用到所有的待選特征,僅從所有的待選特征中隨機(jī)選取一定的特征,再在隨機(jī)選取的特征中選取最優(yōu)特征。這樣能使得隨機(jī)森林中的決策樹都能夠彼此不同,提升系統(tǒng)的多樣性,從而提升分類性能。
隨機(jī)森林優(yōu)點(diǎn):
1)具有極高的準(zhǔn)確率;
2)可以處理大量的輸入變數(shù),并可以評估變數(shù)的重要性;
3)隨機(jī)性的引入,使得隨機(jī)森林不容易過擬合;
4)隨機(jī)性的引入,使得隨機(jī)森林有很好的抗噪聲能力;
5)能處理很高維度的數(shù)據(jù),并且不用做特征選擇;
6)在創(chuàng)建隨機(jī)森林的時(shí)候,對generlizationerror使用的是無偏估計(jì);
7)既能處理離散型數(shù)據(jù),也能處理連續(xù)型數(shù)據(jù),數(shù)據(jù)集無需規(guī)范化;
8)對于不平衡的分類資料集來說,可以平衡誤差;
9)訓(xùn)練速度快,可以得到變量重要性排序;
10)容易實(shí)現(xiàn)并行化。

隨機(jī)森林缺點(diǎn):
1)當(dāng)隨機(jī)森林中的決策樹個(gè)數(shù)很多時(shí),訓(xùn)練時(shí)需要的空間和時(shí)間會較大;
2)隨機(jī)森林在解決回歸問題時(shí)并沒有像它在分類中表現(xiàn)的那么好,不能夠作出超越訓(xùn)練集數(shù)據(jù)范圍的預(yù)測,這可能導(dǎo)致在對某些還有特定噪聲的數(shù)據(jù)進(jìn)行建模時(shí)出現(xiàn)過度擬合;
3)隨機(jī)森林模型還有許多不好解釋的地方,有點(diǎn)算是黑盒模型;

隨機(jī)森林應(yīng)用前景:
隨機(jī)森林具有準(zhǔn)確度高、抗噪聲能力強(qiáng)、不容易過擬合、數(shù)據(jù)集無需規(guī)范化、平衡誤差、訓(xùn)練速度快、易實(shí)現(xiàn)并行化、應(yīng)用性強(qiáng)、適用范圍廣等優(yōu)點(diǎn)。近年來,隨機(jī)森林模型在界內(nèi)的關(guān)注度與受歡迎程度有著顯著的提升。它可以快速地被應(yīng)用到幾乎任何的數(shù)據(jù)科學(xué)問題中去,從而使人們能夠高效快捷地獲得第一組基準(zhǔn)測試結(jié)果。在各種各樣的問題中,隨機(jī)森林一次又一次地展示出令人難以置信的強(qiáng)大,而與此同時(shí)它又是如此的方便實(shí)用。隨機(jī)森林算法可被用于很多不同領(lǐng)域,如銀行,股票市場,醫(yī)藥和電子商務(wù)。在銀行領(lǐng)域,用來檢測那些比普通人更高頻率使用銀行服務(wù)的客戶,并及時(shí)償還他們的債務(wù)。也會被用來檢測那些想詐騙銀行的客戶。在金融領(lǐng)域,可用于預(yù)測未來股票的趨勢。在醫(yī)療保健領(lǐng)域,可用于識別藥品成分的正確組合,分析患者的病史以識別疾病。在電子商務(wù)領(lǐng)域中,隨機(jī)森林可以被用來確定客戶是否真的喜歡某個(gè)產(chǎn)品。

結(jié)語:
隨機(jī)森林是一種多功能的機(jī)器學(xué)習(xí)算法,能夠執(zhí)行回歸和分類的任務(wù)。隨機(jī)森林用隨機(jī)的方式建立一個(gè)森林,森林里面有很多的決策樹組成,可以將幾個(gè)低效模型(決策樹)整合為一個(gè)高效模型(隨機(jī)森林)。它主要解決了決策樹泛化能力弱的缺點(diǎn)。同時(shí),隨機(jī)森林也實(shí)現(xiàn)了數(shù)據(jù)降維,是處理缺失值、異常值或其他數(shù)據(jù)的重要手段,并取得了不錯(cuò)成效。隨機(jī)森林是人工智能之機(jī)器學(xué)習(xí)中最近比較火的算法,具有準(zhǔn)確度高、抗噪聲強(qiáng)、速度快、并行化、適用廣等優(yōu)點(diǎn),在實(shí)際應(yīng)用中,隨機(jī)森林算法性能表現(xiàn)得非常強(qiáng)大和實(shí)用,因此在業(yè)界受到高度關(guān)注和歡迎,其應(yīng)用前景非常廣泛和深遠(yuǎn)。
---------------------------------------------------------------
更多有關(guān)AI/ML文章,敬請關(guān)注“科技優(yōu)化生活”微信公眾號,謝謝!
Copyright ? 2005-2020 www.allweyes.cn | All Rights Reserved 粵ICP備05105686號