日本不卡不码高清免费观看,久久国产精品久久w女人spa,黄色aa久久,三上悠亚国产精品一区二区三区

您的位置:首頁技術(shù)文章
文章詳情頁

Python機器學(xué)習(xí)之AdaBoost算法

瀏覽:21日期:2022-06-19 13:49:49
目錄一、算法概述二、算法原理三、算法步驟四、算法實現(xiàn)五、算法優(yōu)化一、算法概述 AdaBoost 是英文 Adaptive Boosting(自適應(yīng)增強)的縮寫,由 Yoav Freund 和Robert Schapire 在1995年提出。 AdaBoost 的自適應(yīng)在于前一個基本分類器分類錯誤的樣本的權(quán)重會得到加強,加強后的全體樣本再次被用來訓(xùn)練下一個基本分類器。同時,在每一輪訓(xùn)練中加入一個新的弱分類器,直到達(dá)到某個預(yù)定的足夠小的錯誤率或達(dá)到預(yù)先指定的最大迭代次數(shù)時停止訓(xùn)練。 AdaBoost 算法是一種集成學(xué)習(xí)的算法,其核心思想就是對多個機器學(xué)習(xí)模型進行組合形成一個精度更高的模型,參與組合的模型稱為弱學(xué)習(xí)器。二、算法原理 AdaBoost 的核心思想是針對同一訓(xùn)練集訓(xùn)練不同的分類器(弱分類器),然后把這些弱分類器集合起來,構(gòu)成一個更強大的最終分類器(強分類器)。也 就是通過一些手段獲得多個弱分類器,將它們集成起來構(gòu)成強分類器,綜合所有分類器的預(yù)測得出最終的結(jié)果。 AdaBoost 算法本身是通過改變數(shù)據(jù)分布來實現(xiàn)的,它根據(jù)每次訓(xùn)練集中每個樣本的分類是否正確,以及上次的總體分類的準(zhǔn)確率,來確定每個樣本的權(quán)值。將修改過權(quán)值的新數(shù)據(jù)集送給下層分類器進行訓(xùn)練,最后將每次訓(xùn)練得到的分類器最后融合起來,作為最后的決策分類器。三、算法步驟

Python機器學(xué)習(xí)之AdaBoost算法

1.初始化訓(xùn)練數(shù)據(jù)的權(quán)值分布,每一個訓(xùn)練樣本最開始時都被賦予相同的權(quán)值 1/n

Python機器學(xué)習(xí)之AdaBoost算法

2.進行多輪迭代,用 m = 1,2,…,k 表示迭代到第幾輪

3.使用具有權(quán)值分布 Gm 的訓(xùn)練數(shù)據(jù)集學(xué)習(xí),得到基本分類器

Python機器學(xué)習(xí)之AdaBoost算法

4.計算 Gm(x) 在訓(xùn)練數(shù)據(jù)集上的分類誤差率

Python機器學(xué)習(xí)之AdaBoost算法

5.計算 Gm(x) 的系數(shù),am表示 Gm(x) 在最終分類器中的重要程度

Python機器學(xué)習(xí)之AdaBoost算法

6.更新訓(xùn)練數(shù)據(jù)集的權(quán)值分布,得到樣本的新的權(quán)值分布,用于下一輪迭代

Python機器學(xué)習(xí)之AdaBoost算法

7.組合各個弱分類器

Python機器學(xué)習(xí)之AdaBoost算法

四、算法實現(xiàn)

from numpy import *import matplotlib.pyplot as plt# 加載數(shù)據(jù)集def loadDataSet(fileName): numFeat = len(open(fileName).readline().split(’t’)) dataMat = [] labelMat = [] fr = open(fileName) for line in fr.readlines():lineArr = []curLine = line.strip().split(’t’)for i in range(numFeat - 1): lineArr.append(float(curLine[i]))dataMat.append(lineArr)labelMat.append(float(curLine[-1])) return dataMat, labelMat# 返回分類預(yù)測結(jié)果 根據(jù)閾值所以有兩種返回情況def stumpClassify(dataMatrix, dimen, threshVal, threshIneq): retArray = ones((shape(dataMatrix)[0], 1)) if threshIneq == ’lt’:retArray[dataMatrix[:, dimen] <= threshVal] = -1.0 else:retArray[dataMatrix[:, dimen] > threshVal] = -1.0 return retArray# 返回 該弱分類器單層決策樹的信息 更新D向量的錯誤率 更新D向量的預(yù)測目標(biāo)def buildStump(dataArr, classLabels, D): dataMatrix = mat(dataArr) labelMat = mat(classLabels).T m, n = shape(dataMatrix) numSteps = 10.0 bestStump = {} # 字典用于保存每個分類器信息 bestClasEst = mat(zeros((m, 1))) minError = inf # 初始化最小誤差最大 for i in range(n): # 特征循環(huán) (三層循環(huán),遍歷所有的可能性)rangeMin = dataMatrix[:, i].min()rangeMax = dataMatrix[:, i].max()stepSize = (rangeMax - rangeMin) / numSteps # (大-小)/分割數(shù) 得到最小值到最大值需要的每一段距離for j in range(-1, int(numSteps) + 1): # 遍歷步長 最小值到最大值的需要次數(shù) for inequal in [’lt’, ’gt’]: # 在大于和小于之間切換threshVal = (rangeMin + float(j) * stepSize) # 最小值+次數(shù)*步長 每一次從最小值走的長度predictedVals = stumpClassify(dataMatrix, i, threshVal, inequal) # 最優(yōu)預(yù)測目標(biāo)值 用于與目標(biāo)值比較得到誤差errArr = mat(ones((m, 1)))errArr[predictedVals == labelMat] = 0weightedError = D.T * errArrif weightedError < minError: # 選出最小錯誤的那個特征 minError = weightedError # 最小誤差 后面用來更新D權(quán)值的 bestClasEst = predictedVals.copy() # 最優(yōu)預(yù)測值 bestStump[’dim’] = i # 特征 bestStump[’thresh’] = threshVal # 到最小值的距離 (得到最優(yōu)預(yù)測值的那個距離) bestStump[’ineq’] = inequal # 大于還是小于 最優(yōu)距離為-1 return bestStump, minError, bestClasEst# 循環(huán)構(gòu)建numIt個弱分類器def adaBoostTrainDS(dataArr, classLabels, numIt=40): weakClassArr = [] # 保存弱分類器數(shù)組 m = shape(dataArr)[0] D = mat(ones((m, 1)) / m) # D向量 每條樣本所對應(yīng)的一個權(quán)重 aggClassEst = mat(zeros((m, 1))) # 統(tǒng)計類別估計累積值 for i in range(numIt):bestStump, error, classEst = buildStump(dataArr, classLabels, D)alpha = float(0.5 * log((1.0 - error) / max(error, 1e-16)))bestStump[’alpha’] = alphaweakClassArr.append(bestStump) # 加入單層決策樹# 得到運算公式中的向量+/-α,預(yù)測正確為-α,錯誤則+α。每條樣本一個α# multiply對應(yīng)位置相乘 這里很聰明,用-1*真實目標(biāo)值*預(yù)測值,實現(xiàn)了錯誤分類則-,正確則+expon = multiply(-1 * alpha * mat(classLabels).T, classEst)D = multiply(D, exp(expon)) # 這三步為更新概率分布D向量 拆分開來了,每一步與公式相同D = D / D.sum()# 計算停止條件錯誤率=0 以及計算每次的aggClassEst類別估計累計值aggClassEst += alpha * classEst# 很聰明的計算方法 計算得到錯誤的個數(shù),向量中為1則錯誤值aggErrors = multiply(sign(aggClassEst) != mat(classLabels).T, ones((m, 1))) # sign返回數(shù)值的正負(fù)符號,以1、-1表示errorRate = aggErrors.sum() / m # 錯誤個數(shù)/總個數(shù)# print('錯誤率:', errorRate)if errorRate == 0.0: break return weakClassArr, aggClassEst# 預(yù)測 累加 多個弱分類器獲得預(yù)測值*該alpha 得到結(jié)果def adaClassify(datToClass, classifierArr): # classifierArr是元組,所以在取值時需要注意 dataMatrix = mat(datToClass) m = shape(dataMatrix)[0] aggClassEst = mat(zeros((m, 1))) # 循環(huán)所有弱分類器 for i in range(len(classifierArr[0])):# 獲得預(yù)測結(jié)果classEst = stumpClassify(dataMatrix, classifierArr[0][i][’dim’], classifierArr[0][i][’thresh’], classifierArr[0][i][’ineq’])# 該分類器α*預(yù)測結(jié)果 用于累加得到最終的正負(fù)判斷條件aggClassEst += classifierArr[0][i][’alpha’] * classEst # 這里就是集合所有弱分類器的意見,得到最終的意見 return sign(aggClassEst) # 提取數(shù)據(jù)符號# ROC曲線,類別累計值、目標(biāo)標(biāo)簽def plotROC(predStrengths, classLabels): cur = (1.0, 1.0) # 每次畫線的起點游標(biāo)點 ySum = 0.0 # 用于計算AUC的值 矩形面積的高度累計值 numPosClas = sum(array(classLabels) == 1.0) # 所有真實正例 確定了在y坐標(biāo)軸上的步進數(shù)目 yStep = 1 / float(numPosClas) # 1/所有真實正例 y軸上的步長 xStep = 1 / float(len(classLabels) - numPosClas) # 1/所有真實反例 x軸上的步長 sortedIndicies = predStrengths.argsort() # 獲得累計值向量從小到大排序的下表index [50,88,2,71...] fig = plt.figure() fig.clf() ax = plt.subplot(111) # 循環(huán)所有的累計值 從小到大 for index in sortedIndicies.tolist()[0]:if classLabels[index] == 1.0: delX = 0 # 若為一個真正例,則沿y降一個步長,即不斷降低真陽率; delY = yStep # 若為一個非真正例,則沿x退一個步長,尖笑陽率else: delX = xStep delY = 0 ySum += cur[1] # 向下移動一次,則累計一個高度。寬度不變,我們只計算高度ax.plot([cur[0], cur[0] - delX], [cur[1], cur[1] - delY], c=’b’) # 始終會有一個點是沒有改變的cur = (cur[0] - delX, cur[1] - delY) ax.plot([0, 1], [0, 1], ’b--’) plt.xlabel(’False positive rate’) plt.ylabel(’True positive rate’) plt.title(’ROC curve for AdaBoost horse colic detection system’) ax.axis([0, 1, 0, 1]) plt.show() print('the Area Under the Curve is: ', ySum * xStep) # AUC面積我們以 高*低 的矩形來計算# 測試正確率datArr, labelArr = loadDataSet(’horseColicTraining2.txt’)classifierArr = adaBoostTrainDS(datArr, labelArr, 15)testArr, testLabelArr = loadDataSet(’horseColicTest2.txt’)prediction10 = adaClassify(testArr, classifierArr)errArr = mat(ones((67, 1))) # 一共有67個樣本cnt = errArr[prediction10 != mat(testLabelArr).T].sum()print(cnt / 67)# 畫出ROC曲線datArr, labelArr = loadDataSet(’horseColicTraining2.txt’)classifierArray, aggClassEst = adaBoostTrainDS(datArr, labelArr, 10)plotROC(aggClassEst.T, labelArr)五、算法優(yōu)化 權(quán)值更新方法的改進

在實際訓(xùn)練過程中可能存在正負(fù)樣本失衡的問題,分類器會過于關(guān)注大容量樣本,導(dǎo)致分類器不能較好地完成區(qū)分小樣本的目的。此時可以適度增大小樣本的權(quán)重使重心達(dá)到平衡。在實際訓(xùn)練中還會出現(xiàn)困難樣本權(quán)重過高而發(fā)生過擬合的問題,因此有必要設(shè)置困難樣本分類的權(quán)值上限。

訓(xùn)練方法的改進

AdaBoost算法由于其多次迭代訓(xùn)練分類器的原因,訓(xùn)練時間一般會比別的分類器長。對此一般可以采用實現(xiàn)AdaBoost的并行計算或者訓(xùn)練過程中動態(tài)剔除掉權(quán)重偏小的樣本以加速訓(xùn)練過程。

多算法結(jié)合的改進

除了以上算法外,AdaBoost還可以考慮與其它算法結(jié)合產(chǎn)生新的算法,如在訓(xùn)練過程中使用SVM算法加速挑選簡單分類器來替代原始AdaBoost中的窮舉法挑選簡單的分類器。

到此這篇關(guān)于Python機器學(xué)習(xí)之AdaBoost算法的文章就介紹到這了,更多相關(guān)Python AdaBoost算法內(nèi)容請搜索好吧啦網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持好吧啦網(wǎng)!

標(biāo)簽: Python 編程
相關(guān)文章:
日本不卡不码高清免费观看,久久国产精品久久w女人spa,黄色aa久久,三上悠亚国产精品一区二区三区
精品九九久久| 国产欧美大片| 日韩国产91| 激情五月综合| 中文在线а√天堂| 青草综合视频| 国产精品美女| 成人国产综合| 欧美天堂一区| 免费在线欧美视频| 欧美 日韩 国产一区二区在线视频 | 日韩影院免费视频| 免费高潮视频95在线观看网站| 欧美精品影院| 丝袜国产日韩另类美女| 欧美1区2区3区| 麻豆视频在线观看免费网站黄| 久久不见久久见中文字幕免费| 欧美中文高清| 蜜臀91精品一区二区三区| 久久理论电影| 99精品视频在线观看免费播放| 久久精品国产久精国产| 日韩影片在线观看| 丝袜亚洲精品中文字幕一区| 国产韩日影视精品| 久久影视一区| 国产在线|日韩| 97精品国产| 韩日一区二区| 免费一级欧美片在线观看网站| 日本欧美大码aⅴ在线播放| 中文字幕一区二区三区日韩精品| 久久香蕉精品| 亚洲精品四区| 日韩精品久久理论片| 日韩精品导航| 国产亚洲一区| 欧美在线日韩| 欧美亚洲综合视频| 亚洲欧美日本视频在线观看| 亚洲视频综合| 日韩网站在线| 视频在线观看一区| 中文字幕一区二区三区日韩精品| 日韩在线黄色| 国产精品中文| 岛国av在线网站| 成人免费电影网址| 亚洲午夜精品久久久久久app| 久久久久久一区二区| 成人国产精品一区二区网站| 不卡福利视频| 久久久天天操| 视频一区视频二区中文| 日韩三级一区| 久久香蕉网站| 久久久久久免费视频| 国产一区二区三区自拍| 丝袜亚洲精品中文字幕一区| 欧美一级一区| 精品99久久| 另类中文字幕国产精品| 久久精品青草| 亚洲永久字幕| 日本久久一区| 麻豆久久久久久久| 久久精品导航| 日韩一二三区在线观看| 国产一区二区三区国产精品| 亚洲天堂成人| 日韩精品高清不卡| 91欧美在线| 欧美日韩一二三四| 偷拍精品精品一区二区三区| 日韩午夜av在线| 免费在线视频一区| 久久精品网址| 亚州av乱码久久精品蜜桃| 天堂精品久久久久| 色综合五月天| 美女91精品| 麻豆精品新av中文字幕| а√天堂中文在线资源8| 野花国产精品入口| 国产精品久久久久9999高清| 久久99蜜桃| 成人羞羞视频在线看网址| 亚洲国产不卡| 国产精品一卡| 99久久久国产精品美女| 日韩精品欧美精品| 久久中文字幕av| 国产精品最新| 亚洲免费一区二区| 久久这里只有| 蜜臀精品一区二区三区在线观看| 精品国产乱码久久久| 一本色道精品久久一区二区三区| 国产精品v日韩精品v欧美精品网站| 日韩欧美视频专区| 日本亚州欧洲精品不卡| 欧美aa在线观看| 丝袜诱惑制服诱惑色一区在线观看| 国产精品嫩模av在线| 欧美日韩日本国产亚洲在线 | 国产亚洲一级| 久久精品资源| 亚洲资源在线| 91精品久久久久久久久久不卡| 91欧美极品| 亚洲精品小说| 男人的天堂亚洲一区| 国产精品黄网站| 男女男精品网站| 热久久国产精品| 成人精品久久| 国产色噜噜噜91在线精品| 香蕉视频成人在线观看| 加勒比视频一区| 国产h片在线观看| 亚洲日韩视频| 久久国产视频网| 97国产成人高清在线观看| 伊人久久大香伊蕉在人线观看热v| 乱人伦精品视频在线观看| 偷拍欧美精品| 视频在线观看91| 亚洲欧美日韩一区在线观看| 激情自拍一区| 欧美日中文字幕| 蜜桃av.网站在线观看| 国产经典一区| 自拍日韩欧美| 蜜臀久久99精品久久一区二区| 亚洲网站视频| 男人的天堂久久精品| 日本亚洲视频在线| 国产日韩欧美中文在线| 亚洲一级高清| 国产综合视频| 亚洲视频综合| 国产日产精品一区二区三区四区的观看方式| 久久精品亚洲欧美日韩精品中文字幕| 亚洲欧美日韩国产综合精品二区 | 国产高清日韩| 蜜桃久久av| 欧美日韩精品免费观看视频完整| 久久国产中文字幕| 欧美激情在线精品一区二区三区| 久久99伊人| 日韩精品第一区| 日韩不卡免费视频| 国产视频一区在线观看一区免费| 成人黄色av| 人在线成免费视频| 88久久精品| 欧美不卡高清一区二区三区| 美女免费视频一区| 最新亚洲激情| 美国三级日本三级久久99 | 国产亚洲激情| 在线日韩欧美| 综合激情网站| 一区二区国产在线| 国产伦一区二区三区| 福利精品一区| 99久久99久久精品国产片果冰| 亚洲少妇在线| 国产精品久久久一区二区| 天堂а√在线最新版中文在线| 午夜久久影院| 日本91福利区| 国产中文欧美日韩在线| 免费国产自久久久久三四区久久| 最新亚洲国产| 国产精品毛片久久| 9国产精品视频| 久久不卡国产精品一区二区| 欧美国产91| 国产精品一区二区免费福利视频| 国产亚洲一区二区手机在线观看 | 久久香蕉精品香蕉| 久久久精品午夜少妇| 亚洲精品一二| 国产96在线亚洲| 水蜜桃久久夜色精品一区的特点| 国产麻豆一区二区三区| 久久精品国内一区二区三区水蜜桃| 久久先锋影音| 国产亚洲第一伦理第一区| 电影亚洲精品噜噜在线观看| 亚洲伊人精品酒店| 最新中文字幕在线播放 | 老色鬼精品视频在线观看播放| 欧美成人精品| 国产精品任我爽爆在线播放| 好吊日精品视频| 九九久久国产| 日韩中文字幕亚洲一区二区va在线 |