日本不卡不码高清免费观看,久久国产精品久久w女人spa,黄色aa久久,三上悠亚国产精品一区二区三区

您的位置:首頁(yè)技術(shù)文章
文章詳情頁(yè)

Java爬蟲(chóng)技術(shù)框架之Heritrix框架詳解

瀏覽:14日期:2022-08-28 14:41:40

Heritrix是一個(gè)由Java開(kāi)發(fā)的開(kāi)源Web爬蟲(chóng)系統(tǒng),用來(lái)獲取完整的、精確的站點(diǎn)內(nèi)容的深度復(fù)制,

具有強(qiáng)大的可擴(kuò)展性,運(yùn)行開(kāi)發(fā)者任意選擇或擴(kuò)展各個(gè)組件,實(shí)現(xiàn)特定的抓取邏輯。

一、Heritrix介紹

Heritrix采用了模塊化的設(shè)計(jì),用戶(hù)可以在運(yùn)行時(shí)選擇要用的模塊。它由核心類(lèi)(core classes)和插件模塊(pluggable modules)構(gòu)成。

核心類(lèi)可以配置,但不能被覆蓋,插件模塊可以由第三方模塊取代。所以我們就可以用實(shí)現(xiàn)了特定抓取邏輯的第三方模塊來(lái)取代默認(rèn)的插件模塊,從而滿(mǎn)足自己的抓取需要。

CrawlController(下載控制器)整個(gè)下載過(guò)程的總控制者,整個(gè)抓取工作的起點(diǎn),決定整個(gè)抓取任務(wù)的開(kāi)始和結(jié)束。每個(gè)URI都有一個(gè)獨(dú)立的線(xiàn)程,它從邊界控制器(Frontier)獲取新的URI,然后傳遞給Processor chains(處理鏈)經(jīng)過(guò)一系列Processor(處理器)處理。

Java爬蟲(chóng)技術(shù)框架之Heritrix框架詳解

二、Heritrix架構(gòu)

中央控制器 CrawlController 是核心組件,決定了整個(gè)抓取任務(wù)的開(kāi)始與結(jié)束。

用戶(hù)在 Heritrix web UI 控制臺(tái)設(shè)置抓取任務(wù)后,heritrix首先構(gòu)造XMLSettingsHandler對(duì)象,然后調(diào)用CrawlController的構(gòu)造函數(shù),構(gòu)造一個(gè)CrawlController實(shí)例并初始化,這樣,CrawlController就具備了運(yùn)行條件。

此時(shí),只需調(diào)用 requestCrawlStart()方法就可以啟動(dòng)線(xiàn)程池和Frontier,以便向線(xiàn)程池中工作線(xiàn)程提供抓取用的URL鏈接。

Java爬蟲(chóng)技術(shù)框架之Heritrix框架詳解

Heritrix 3.x 的框架主要分為 Engine 和 Component

三、一些API

org.archive.crawler.framework.CrawlJob;

org.archive.crawler.postprocessor.CandidatesProcessor;org.archive.modules.CrawlURI;

等等

抓取任務(wù)CrawlOrder類(lèi):是整個(gè)抓取工作的起點(diǎn)。一次抓取任務(wù)包括許多屬性,建立一個(gè)任務(wù)的方式有很多種,最簡(jiǎn)單的一種就是根據(jù)默認(rèn)的order.xml來(lái)配置。

中央控制器CrawlController:該類(lèi)決定著抓取任務(wù)的開(kāi)始和結(jié)束。它包含以下幾個(gè)組件:

CrawlOrder:該類(lèi)保存了order.xml的屬性配置;

CrawlScope:決定當(dāng)前抓取范圍;

ProcessorChainList:處理器鏈;

Frontier:一次抓取任務(wù)需要設(shè)定一個(gè)Frontier,以此來(lái)不斷為其每個(gè)線(xiàn)程提供URI;

ToePool:它是一個(gè)線(xiàn)程池,管理了所有在當(dāng)前任務(wù)中抓取過(guò)的Host名稱(chēng)和Server名稱(chēng)。

中央控制器CrawlControllr的類(lèi)結(jié)構(gòu)如圖所示:

Java爬蟲(chóng)技術(shù)框架之Heritrix框架詳解

Frontier鏈接制造工廠(chǎng):它表示一種為線(xiàn)程提供鏈接的工具,通過(guò)一些特定的算法來(lái)決定哪個(gè)鏈接將接下來(lái)被送入處理器鏈中,同時(shí),它本身也負(fù)責(zé)一定的日志和狀態(tài)報(bào)告功能。

BdbFrontier類(lèi):它是用Berkeley DB 實(shí)現(xiàn)的,Berkeley DB 就是一個(gè)HashTable,它能夠按“key/value”方式保存數(shù)據(jù),能夠?yàn)閼?yīng)用程序提供可伸縮的、高性能的、有事務(wù)保護(hù)功能的嵌入式數(shù)據(jù)庫(kù)。

Heritrix的多線(xiàn)程ToeThread和ToePool:要想更快更有效地抓取網(wǎng)頁(yè),必須采用多線(xiàn)程,Heritrix則采用多線(xiàn)程機(jī)制,提供了一個(gè)標(biāo)準(zhǔn)的線(xiàn)程池ToePool,用于管理所有的抓取線(xiàn)程。

處理器鏈 Processor:包括PreProcessor、Fetcher、Extractor、Writer、PostProcessor五種。

四、應(yīng)用

作為爬蟲(chóng)模塊,爬取數(shù)據(jù)

Java爬蟲(chóng)技術(shù)框架之Heritrix框架詳解

到此這篇關(guān)于爬蟲(chóng)技術(shù)框架之Heritrix框架詳解的文章就介紹到這了,更多相關(guān)爬蟲(chóng)技術(shù)框架 Heritrix內(nèi)容請(qǐng)搜索好吧啦網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持好吧啦網(wǎng)!

標(biāo)簽: Java
相關(guān)文章:
日本不卡不码高清免费观看,久久国产精品久久w女人spa,黄色aa久久,三上悠亚国产精品一区二区三区
99久久99久久精品国产片果冰| 欧美日韩精品一区二区视频| 久久午夜精品一区二区| 好看的亚洲午夜视频在线| 日韩一级网站| 午夜亚洲福利| 久久久久九九精品影院| 欧美sss在线视频| 夜夜嗨一区二区| 日韩av一区二区在线影视| 国产福利一区二区三区在线播放| 日韩不卡一区| 奶水喷射视频一区| 国产激情综合| 久久免费黄色| 国产一区二区精品| 国产亚洲欧美日韩精品一区二区三区 | 久久久亚洲一区| 午夜欧美精品久久久久久久| 一区二区国产在线| 国产精品美女久久久久久不卡| 精品亚洲自拍| 尤物网精品视频| 久久超碰99| 国产二区精品| 国产精品日韩精品中文字幕| 久久一级电影| 日韩精品导航| 成人精品亚洲| 97精品国产99久久久久久免费| 中文字幕在线免费观看视频| 一级成人国产| 久久久久久久久丰满| 日本aⅴ精品一区二区三区| 91亚洲国产| 亚洲欧美日本日韩| 国产aⅴ精品一区二区三区久久| 亚洲一区二区三区高清| 精品三级av在线导航| 一区二区三区四区在线观看国产日韩 | 日本一区中文字幕| 中文在线а√在线8| 亚洲另类黄色| 日本综合字幕| 国产黄色一区| 在线国产日韩| 91精品国产91久久久久久黑人| 亚洲人成网77777色在线播放 | 日韩欧美在线精品| 亚洲电影有码| 国产精品视频一区二区三区| 成人av二区| 色婷婷综合网| 国产剧情在线观看一区| 久久午夜精品| 亚洲一级网站| 国产a久久精品一区二区三区| 亚洲精品日本| 伊人精品视频| 欧美日韩国产观看视频| 日韩欧美四区| 免费欧美日韩| 欧美va天堂| 中国字幕a在线看韩国电影| 日本一区二区中文字幕| 欧美日韩国产高清| 91精品一区二区三区综合在线爱| 久久伊人久久| 国产欧美精品| 欧美日韩一区二区高清| 亚洲三级精品| 男女男精品网站| 国产精品美女久久久浪潮软件| 日韩成人免费| 麻豆成人av在线| 国产极品模特精品一二| 日本中文字幕一区二区视频 | 久久九九国产| 神马午夜在线视频| 国产精品蜜芽在线观看| 国产不卡精品在线| 精品国产一区二区三区性色av| 久久精品 人人爱| 日韩欧美久久| 亚欧洲精品视频在线观看| 99pao成人国产永久免费视频| 久久久成人网| 色88888久久久久久影院| 日韩黄色大片网站| 午夜av成人| 欧美福利专区| 99在线精品免费视频九九视 | 激情久久五月| 成人av二区| 亚洲一区观看| 中文字幕一区二区三区四区久久| 巨乳诱惑日韩免费av| 日韩中文欧美在线| 涩涩涩久久久成人精品| 亚洲精品美女91| 日韩精品中文字幕一区二区| 亚洲1区在线| 日韩av午夜在线观看| 欧美精品中文| 国际精品欧美精品| 88xx成人免费观看视频库| 在线一区av| 99久久夜色精品国产亚洲狼| 黄色日韩精品| 日本不卡一区二区三区| 欧美极品中文字幕| 欧美一区久久久| 亚洲作爱视频| 欧美一级网址| 国产一区二区三区黄网站| 日韩国产欧美一区二区| 不卡中文一二三区| 亚州av日韩av| 精品久久精品| 亚洲成人免费| 日韩高清一区| 国产不卡精品| 亚洲作爱视频| 欧美一区自拍| 日韩av福利| 一区二区电影在线观看| 国产欧美一区二区三区精品观看| 国产成人精品亚洲线观看| 国产在线欧美| 奇米亚洲欧美| zzzwww在线看片免费| 99国产精品久久久久久久成人热 | 日本久久成人网| 久久先锋影音| 国产精品igao视频网网址不卡日韩| yellow在线观看网址| 日韩一级不卡| 国产欧美日韩精品高清二区综合区 | 国产精品白浆| 欧美亚洲国产激情| 欧美视频二区| 999久久久免费精品国产| 综合日韩在线| 日韩电影免费网站| 日韩精品电影一区亚洲| 国产黄大片在线观看| 蜜桃免费网站一区二区三区| 欧美激情日韩| 国产亚洲在线观看| 精品亚洲成人| 欧美日韩国产欧| 国产精品亚洲人成在99www | 欧洲亚洲一区二区三区| 亚洲精品一二三**| 亚洲风情在线资源| 日本久久一区| 欧美一级精品| 麻豆视频一区二区| 蜜臀久久久久久久| 欧美片第1页| 国产精品亚洲综合色区韩国| 国产一区亚洲| 国产一区二区三区精品在线观看| 免费观看在线综合色| 色爱av综合网| 欧美精品aa| 亚洲精品国模| 激情综合亚洲| 国产欧美一区二区三区精品酒店| 日本午夜精品视频在线观看| 狠狠久久婷婷| 人人精品亚洲| 中文字幕高清在线播放| 国产精品va视频| 日本午夜精品久久久久| 日韩中文字幕不卡| 欧美日韩国产免费观看| 日韩欧美精品综合| 久久精品国产久精国产| 91嫩草精品| 视频精品一区| 亚洲精品综合| 蜜臀av一区二区在线免费观看| 宅男在线一区| 99视频精品全部免费在线视频| 中文在线中文资源| 国产一区二区视频在线看| 国产精品白浆| 国产日韩欧美一区在线| 日韩中文一区二区| 99国产精品| 一区免费在线| 日韩视频二区| 99久久亚洲精品| 色老板在线视频一区二区| 激情黄产视频在线免费观看| 国产在线日韩精品| 国产videos久久| 久久久久久夜| 国产中文在线播放|