文章詳情頁

Python機器學習之AdaBoost算法

瀏覽：22日期：2022-06-19 13:49:49

目錄一、算法概述二、算法原理三、算法步驟四、算法實現五、算法優化一、算法概述 AdaBoost 是英文 Adaptive Boosting（自適應增強）的縮寫，由 Yoav Freund 和Robert Schapire 在1995年提出。 AdaBoost 的自適應在于前一個基本分類器分類錯誤的樣本的權重會得到加強，加強后的全體樣本再次被用來訓練下一個基本分類器。同時，在每一輪訓練中加入一個新的弱分類器，直到達到某個預定的足夠小的錯誤率或達到預先指定的最大迭代次數時停止訓練。 AdaBoost 算法是一種集成學習的算法，其核心思想就是對多個機器學習模型進行組合形成一個精度更高的模型，參與組合的模型稱為弱學習器。二、算法原理 AdaBoost 的核心思想是針對同一訓練集訓練不同的分類器（弱分類器），然后把這些弱分類器集合起來，構成一個更強大的最終分類器（強分類器）。也就是通過一些手段獲得多個弱分類器，將它們集成起來構成強分類器，綜合所有分類器的預測得出最終的結果。 AdaBoost 算法本身是通過改變數據分布來實現的，它根據每次訓練集中每個樣本的分類是否正確，以及上次的總體分類的準確率，來確定每個樣本的權值。將修改過權值的新數據集送給下層分類器進行訓練，最后將每次訓練得到的分類器最后融合起來，作為最后的決策分類器。三、算法步驟

1.初始化訓練數據的權值分布，每一個訓練樣本最開始時都被賦予相同的權值 1/n

Python機器學習之AdaBoost算法

2.進行多輪迭代，用 m = 1,2,…,k 表示迭代到第幾輪

3.使用具有權值分布 Gm 的訓練數據集學習，得到基本分類器

Python機器學習之AdaBoost算法

4.計算 Gm(x) 在訓練數據集上的分類誤差率

Python機器學習之AdaBoost算法

5.計算 Gm(x) 的系數，am表示 Gm(x) 在最終分類器中的重要程度

Python機器學習之AdaBoost算法

6.更新訓練數據集的權值分布，得到樣本的新的權值分布，用于下一輪迭代

Python機器學習之AdaBoost算法

7.組合各個弱分類器

Python機器學習之AdaBoost算法

四、算法實現

from numpy import *import matplotlib.pyplot as plt# 加載數據集def loadDataSet(fileName): numFeat = len(open(fileName).readline().split(’t’)) dataMat = [] labelMat = [] fr = open(fileName) for line in fr.readlines():lineArr = []curLine = line.strip().split(’t’)for i in range(numFeat - 1): lineArr.append(float(curLine[i]))dataMat.append(lineArr)labelMat.append(float(curLine[-1])) return dataMat, labelMat# 返回分類預測結果根據閾值所以有兩種返回情況def stumpClassify(dataMatrix, dimen, threshVal, threshIneq): retArray = ones((shape(dataMatrix)[0], 1)) if threshIneq == ’lt’:retArray[dataMatrix[:, dimen] <= threshVal] = -1.0 else:retArray[dataMatrix[:, dimen] > threshVal] = -1.0 return retArray# 返回該弱分類器單層決策樹的信息更新D向量的錯誤率更新D向量的預測目標def buildStump(dataArr, classLabels, D): dataMatrix = mat(dataArr) labelMat = mat(classLabels).T m, n = shape(dataMatrix) numSteps = 10.0 bestStump = {} # 字典用于保存每個分類器信息 bestClasEst = mat(zeros((m, 1))) minError = inf # 初始化最小誤差最大 for i in range(n): # 特征循環（三層循環，遍歷所有的可能性）rangeMin = dataMatrix[:, i].min()rangeMax = dataMatrix[:, i].max()stepSize = (rangeMax - rangeMin) / numSteps # (大-小)/分割數得到最小值到最大值需要的每一段距離for j in range(-1, int(numSteps) + 1): # 遍歷步長最小值到最大值的需要次數 for inequal in [’lt’, ’gt’]: # 在大于和小于之間切換threshVal = (rangeMin + float(j) * stepSize) # 最小值+次數*步長每一次從最小值走的長度predictedVals = stumpClassify(dataMatrix, i, threshVal, inequal) # 最優預測目標值用于與目標值比較得到誤差errArr = mat(ones((m, 1)))errArr[predictedVals == labelMat] = 0weightedError = D.T * errArrif weightedError < minError: # 選出最小錯誤的那個特征 minError = weightedError # 最小誤差后面用來更新D權值的 bestClasEst = predictedVals.copy() # 最優預測值 bestStump[’dim’] = i # 特征 bestStump[’thresh’] = threshVal # 到最小值的距離（得到最優預測值的那個距離） bestStump[’ineq’] = inequal # 大于還是小于最優距離為-1 return bestStump, minError, bestClasEst# 循環構建numIt個弱分類器def adaBoostTrainDS(dataArr, classLabels, numIt=40): weakClassArr = [] # 保存弱分類器數組 m = shape(dataArr)[0] D = mat(ones((m, 1)) / m) # D向量每條樣本所對應的一個權重 aggClassEst = mat(zeros((m, 1))) # 統計類別估計累積值 for i in range(numIt):bestStump, error, classEst = buildStump(dataArr, classLabels, D)alpha = float(0.5 * log((1.0 - error) / max(error, 1e-16)))bestStump[’alpha’] = alphaweakClassArr.append(bestStump) # 加入單層決策樹# 得到運算公式中的向量+/-α，預測正確為-α，錯誤則+α。每條樣本一個α# multiply對應位置相乘這里很聰明，用-1*真實目標值*預測值，實現了錯誤分類則-，正確則+expon = multiply(-1 * alpha * mat(classLabels).T, classEst)D = multiply(D, exp(expon)) # 這三步為更新概率分布D向量拆分開來了，每一步與公式相同D = D / D.sum()# 計算停止條件錯誤率=0 以及計算每次的aggClassEst類別估計累計值aggClassEst += alpha * classEst# 很聰明的計算方法計算得到錯誤的個數，向量中為1則錯誤值aggErrors = multiply(sign(aggClassEst) != mat(classLabels).T, ones((m, 1))) # sign返回數值的正負符號，以1、-1表示errorRate = aggErrors.sum() / m # 錯誤個數/總個數# print('錯誤率：', errorRate)if errorRate == 0.0: break return weakClassArr, aggClassEst# 預測累加多個弱分類器獲得預測值*該alpha 得到結果def adaClassify(datToClass, classifierArr): # classifierArr是元組，所以在取值時需要注意 dataMatrix = mat(datToClass) m = shape(dataMatrix)[0] aggClassEst = mat(zeros((m, 1))) # 循環所有弱分類器 for i in range(len(classifierArr[0])):# 獲得預測結果classEst = stumpClassify(dataMatrix, classifierArr[0][i][’dim’], classifierArr[0][i][’thresh’], classifierArr[0][i][’ineq’])# 該分類器α*預測結果用于累加得到最終的正負判斷條件aggClassEst += classifierArr[0][i][’alpha’] * classEst # 這里就是集合所有弱分類器的意見，得到最終的意見 return sign(aggClassEst) # 提取數據符號# ROC曲線，類別累計值、目標標簽def plotROC(predStrengths, classLabels): cur = (1.0, 1.0) # 每次畫線的起點游標點 ySum = 0.0 # 用于計算AUC的值矩形面積的高度累計值 numPosClas = sum(array(classLabels) == 1.0) # 所有真實正例確定了在y坐標軸上的步進數目 yStep = 1 / float(numPosClas) # 1/所有真實正例 y軸上的步長 xStep = 1 / float(len(classLabels) - numPosClas) # 1/所有真實反例 x軸上的步長 sortedIndicies = predStrengths.argsort() # 獲得累計值向量從小到大排序的下表index [50,88,2,71...] fig = plt.figure() fig.clf() ax = plt.subplot(111) # 循環所有的累計值從小到大 for index in sortedIndicies.tolist()[0]:if classLabels[index] == 1.0: delX = 0 # 若為一個真正例，則沿y降一個步長，即不斷降低真陽率； delY = yStep # 若為一個非真正例，則沿x退一個步長，尖笑陽率else: delX = xStep delY = 0 ySum += cur[1] # 向下移動一次，則累計一個高度。寬度不變，我們只計算高度ax.plot([cur[0], cur[0] - delX], [cur[1], cur[1] - delY], c=’b’) # 始終會有一個點是沒有改變的cur = (cur[0] - delX, cur[1] - delY) ax.plot([0, 1], [0, 1], ’b--’) plt.xlabel(’False positive rate’) plt.ylabel(’True positive rate’) plt.title(’ROC curve for AdaBoost horse colic detection system’) ax.axis([0, 1, 0, 1]) plt.show() print('the Area Under the Curve is: ', ySum * xStep) # AUC面積我們以高*低的矩形來計算# 測試正確率datArr, labelArr = loadDataSet(’horseColicTraining2.txt’)classifierArr = adaBoostTrainDS(datArr, labelArr, 15)testArr, testLabelArr = loadDataSet(’horseColicTest2.txt’)prediction10 = adaClassify(testArr, classifierArr)errArr = mat(ones((67, 1))) # 一共有67個樣本cnt = errArr[prediction10 != mat(testLabelArr).T].sum()print(cnt / 67)# 畫出ROC曲線datArr, labelArr = loadDataSet(’horseColicTraining2.txt’)classifierArray, aggClassEst = adaBoostTrainDS(datArr, labelArr, 10)plotROC(aggClassEst.T, labelArr)五、算法優化權值更新方法的改進

在實際訓練過程中可能存在正負樣本失衡的問題，分類器會過于關注大容量樣本，導致分類器不能較好地完成區分小樣本的目的。此時可以適度增大小樣本的權重使重心達到平衡。在實際訓練中還會出現困難樣本權重過高而發生過擬合的問題，因此有必要設置困難樣本分類的權值上限。

訓練方法的改進

AdaBoost算法由于其多次迭代訓練分類器的原因，訓練時間一般會比別的分類器長。對此一般可以采用實現AdaBoost的并行計算或者訓練過程中動態剔除掉權重偏小的樣本以加速訓練過程。

多算法結合的改進

除了以上算法外，AdaBoost還可以考慮與其它算法結合產生新的算法，如在訓練過程中使用SVM算法加速挑選簡單分類器來替代原始AdaBoost中的窮舉法挑選簡單的分類器。

到此這篇關于Python機器學習之AdaBoost算法的文章就介紹到這了,更多相關Python AdaBoost算法內容請搜索好吧啦網以前的文章或繼續瀏覽下面的相關文章希望大家以后多多支持好吧啦網！

Python 編程

上一條：Python實現emoji表情的簡單方法下一條：Python NumPy中diag函數的使用說明

相關文章：

1. IntelliJ IDEA安裝插件的方法步驟2. IntelliJ IDEA設置自動提示功能快捷鍵的方法3. idea重置默認配置的方法步驟4. 解析原生JS getComputedStyle5. IntelliJ IDEA設置背景圖片的方法步驟6. idea給項目打war包的方法步驟7. php過濾器使用詳解8. python的json包位置及用法總結9. idea設置代碼格式化的方法步驟10. 使用IDEA編寫jsp時EL表達式不起作用的問題及解決方法

排行榜

					
					解析原生JS getComputedStyle
IntelliJ IDEA設置背景圖片的方法步驟
IntelliJ IDEA安裝插件的方法步驟
idea給項目打war包的方法步驟
IntelliJ IDEA設置自動提示功能快捷鍵的方法
idea重置默認配置的方法步驟
使用IDEA編寫jsp時EL表達式不起作用的問題及解決方法
python的json包位置及用法總結
php過濾器使用詳解
intellij idea寫Python教程
IntelliJ IDEA調整字體大小的方法