日本不卡不码高清免费观看,久久国产精品久久w女人spa,黄色aa久久,三上悠亚国产精品一区二区三区

您的位置:首頁技術文章
文章詳情頁

java - 使用Webmagic網頁無法下載

瀏覽:216日期:2024-01-09 17:41:53

問題描述

使用webmagic進行簡單的網頁數據爬取時,遇到了網頁無法下載的問題,不過在調試的時候,偶爾也會出現可以下載的情況,挺令人抓狂,在網上多次搜索,沒有找到相關的解決辦法,自己代碼能力有限,還不能看懂問題所在,還請大神出手相救。報的錯誤

2017-03-31 13:55:54,610 WARN [us.codecraft.webmagic.downloader.HttpClientDownloader] - download page http://www.neofactory.co.jp/product_detail/000004/ errorjava.net.SocketTimeoutException: Read timed out at java.net.SocketInputStream.socketRead0(Native Method) at java.net.SocketInputStream.socketRead(Unknown Source) at java.net.SocketInputStream.read(Unknown Source) at java.net.SocketInputStream.read(Unknown Source) at org.apache.http.impl.io.SessionInputBufferImpl.streamRead(SessionInputBufferImpl.java:139) at org.apache.http.impl.io.SessionInputBufferImpl.fillBuffer(SessionInputBufferImpl.java:155) at org.apache.http.impl.io.SessionInputBufferImpl.readLine(SessionInputBufferImpl.java:284) at org.apache.http.impl.conn.DefaultHttpResponseParser.parseHead(DefaultHttpResponseParser.java:140) at org.apache.http.impl.conn.DefaultHttpResponseParser.parseHead(DefaultHttpResponseParser.java:57) at org.apache.http.impl.io.AbstractMessageParser.parse(AbstractMessageParser.java:261) at org.apache.http.impl.DefaultBHttpClientConnection.receiveResponseHeader(DefaultBHttpClientConnection.java:165) at org.apache.http.impl.conn.CPoolProxy.receiveResponseHeader(CPoolProxy.java:167) at org.apache.http.protocol.HttpRequestExecutor.doReceiveResponse(HttpRequestExecutor.java:272) at org.apache.http.protocol.HttpRequestExecutor.execute(HttpRequestExecutor.java:124) at org.apache.http.impl.execchain.MainClientExec.execute(MainClientExec.java:271) at org.apache.http.impl.execchain.ProtocolExec.execute(ProtocolExec.java:184) at org.apache.http.impl.execchain.RetryExec.execute(RetryExec.java:88) at org.apache.http.impl.execchain.RedirectExec.execute(RedirectExec.java:110) at org.apache.http.impl.client.InternalHttpClient.doExecute(InternalHttpClient.java:184) at org.apache.http.impl.client.CloseableHttpClient.execute(CloseableHttpClient.java:82) at org.apache.http.impl.client.CloseableHttpClient.execute(CloseableHttpClient.java:107) at us.codecraft.webmagic.downloader.HttpClientDownloader.download(HttpClientDownloader.java:102) at us.codecraft.webmagic.Spider.processRequest(Spider.java:404) at us.codecraft.webmagic.Spider$1.run(Spider.java:321) at us.codecraft.webmagic.thread.CountableThreadPool$1.run(CountableThreadPool.java:74) at java.util.concurrent.ThreadPoolExecutor.runWorker(Unknown Source) at java.util.concurrent.ThreadPoolExecutor$Worker.run(Unknown Source) at java.lang.Thread.run(Unknown Source)

我的代碼

import java.io.FileInputStream;import java.io.IOException;import java.io.InputStream;import java.net.SocketTimeoutException;import java.util.ArrayList;import java.util.Date;import java.util.regex.Matcher;import java.util.regex.Pattern;import jxl.Cell;import jxl.Sheet;import jxl.Workbook;import jxl.read.biff.BiffException;import us.codecraft.webmagic.Page;import us.codecraft.webmagic.Site;import us.codecraft.webmagic.Spider;import us.codecraft.webmagic.processor.PageProcessor;public class GithubRepoPageProcessor implements PageProcessor { jxl.Workbook readwb=null; String[] a=new String[]{}; Goodsdata gd=new Goodsdata(); DatabaseControl dc=new DatabaseControl(); static ArrayList<String>list=new ArrayList<String>(); private Site site = Site.me().setRetryTimes(3).setSleepTime(100).setCharset('Shift_JIS'); public void process(Page page) {String todey_status='';String maker_no='';String oem_no='';String color='';String material='';String size='';String innerGoods='';String rightMor='';String warning='';String introduction='';String referedGoods='';String similiarGoods='';String similiarGoodscheck='';maker_no=page.getHtml().xpath('//p[1]//p[2]//p[2]//table[5]//tbody//tr[4]//td//table//tbody//tr[2]//td[1]/text()').get();oem_no=page.getHtml().xpath('//p[1]//p[2]//p[2]//table[5]//tbody//tr[4]//td//table//tbody//tr[2]//td[2]/text()').get();color=page.getHtml().xpath('//p[1]//p[2]//p[2]//table[5]//tbody//tr[4]//td//table//tbody//tr[4]//td[1]/text()').get();material=page.getHtml().xpath('//p[1]//p[2]//p[2]//table[5]//tbody//tr[4]//td//table//tbody//tr[4]//td[2]/text()').get();size=page.getHtml().xpath('//p[1]//p[2]//p[2]//table[5]//tbody//tr[4]//td//table//tbody//tr[6]//td/text()').get();innerGoods=page.getHtml().xpath('//p[1]//p[2]//p[2]//table[5]//tbody//tr[4]//td//table//tbody//tr[8]//td/text()').get();rightMor=page.getHtml().xpath('//p[1]//p[2]//p[2]//table[5]//tbody//tr[4]//td//table//tbody//tr[10]//td/text()').get();warning=page.getHtml().xpath('//p[1]//p[2]//p[2]//table[5]//tbody//tr[4]//td//table//tbody//tr[12]//td/text()').get();introduction=page.getHtml().xpath('//p[1]//p[2]//p[2]//table[5]//tbody//tr[4]//td//table//tbody//tr[14]//td/text()').get();String todey_status_check=page.getHtml().xpath('//p[1]//p[2]//p[2]//table[4]//tbody//tr//td').get();if(todey_status_check.contains('売り切れ中です。')){ todey_status='0';}else{ String[] str=null; str=todey_status_check.split('>'); todey_status=RegexString(str[str.length-2],'d{1,2}');}String html=page.getHtml().toString();a=html.split('n');if(page.getHtml().xpath('//p[1]//p[2]//p[2]//table[6]//tbody//tr[1]//td//table//tbody//tr[1]//th').match()){ for(int i=0;i<a.length;i++){if(!a[i].contains('この商品の関連商品')){ continue;}else{ for(int j=i+1;j<a.length;j++){if(a[j].contains('</table>')){ referedGoods=referedGoods.substring(0, referedGoods.length()-1); break;}else{ if(a[j].contains('商品番號')){ String regEx='d{6}|bw{2,3}d{3,4}'; referedGoods=referedGoods+'nf-'+RegexString(a[j],regEx)+':';//調用正則函數表達式函數,返回關聯商品番號] }} }} }}if (page.getHtml().xpath('//p[1]//p[2]//p[2]//table[6]//tbody//tr[2]//td//table//tbody//tr[1]//th//strong').match()) { similiarGoodscheck = page.getHtml() .xpath('//p[1]//p[2]//p[2]//table[6]//tbody//tr[2]//td//table//tbody//tr[1]//th//strong/text()') .get(); for (int i = 0; i < a.length; i++) {if (!a[i].contains(similiarGoodscheck)) { continue;} else { for (int j = i + 1; j < a.length; j++) {if (a[j].contains('</table>')) { similiarGoods = similiarGoods.substring(0, similiarGoods.length() - 1); break;} else { if (a[j].contains('商品番號')) {String regEx = 'd{6}|bw{2,3}d{3,4}';similiarGoods = similiarGoods + 'nf-' + RegexString(a[j], regEx) + ':';// 調用正則函數表達式函數,返回關聯商品番號] }} }} }} // System.out.println(todey_status);//System.out.println(maker_no+' '+oem_no+' ');//System.out.println(color+' '+material+' '+size+' ');//System.out.println(innerGoods+' '+rightMor+' '+warning+' '+introduction);//System.out.println(referedGoods);//System.out.println(similiarGoods);gd.setMaker_no(maker_no);gd.setOem_no(oem_no);gd.setColor(color);gd.setMaterial(material);gd.setSize(size);gd.setInnerGoods(innerGoods);gd.setRightMor(rightMor);gd.setWarning(warning);gd.setIntroduction(introduction);gd.setReferedGoods(referedGoods);gd.setSimiliarGoods(similiarGoods);//dc.insert(gd); } public String RegexString(String targetStr,String patternStr){//正則表達式函數,接收目標html字符串,正則表達式String goodsnum=null;Pattern pt=Pattern.compile(patternStr);Matcher matcher=pt.matcher(targetStr);boolean rs=matcher.find();if(rs){ goodsnum=matcher.group();}return goodsnum; } public Site getSite() {return site; } public void openXls() throws BiffException, IOException{//獲得excel的內容try { int column=0; InputStream instream=new FileInputStream('C:UsersxujioDesktopitemdatabase_neo.xls'); readwb=Workbook.getWorkbook(instream); Sheet readsheet =readwb.getSheet(0); int rsColumn=readsheet.getColumns(); int rsRows=readsheet.getRows(); for(int j=0;j<rsColumn;j++){Cell cell=readsheet.getCell(j, 0);if(cell.getContents().equals('管理番號')){ column=j; break;} } for(int i=1;i<rsRows;i++){String originNum=null;Cell cell=readsheet.getCell(column,i);originNum=cell.getContents();String[] numGoods=originNum.split('-');list.add(numGoods[1]); }} catch (Exception e) { e.printStackTrace();}finally{ readwb.close();} } public static void main(String[] args) {int check=0; String strNum=null;try { new GithubRepoPageProcessor().openXls();//讀取一個.xls文件} catch (BiffException e) { // TODO Auto-generated catch block e.printStackTrace();} catch (IOException e) { // TODO Auto-generated catch block e.printStackTrace();}for(int i=0;i<5;i++){ strNum=list.get(i);//獲取商品代號 String url='http://www.neofactory.co.jp/product_detail/'+list.get(i)+'/';//獲取相關商品代號下的網頁的地址 Spider.create(new GithubRepoPageProcessor()).addUrl(url).thread(5).run();} }}

問題解答

回答1:

親,你的異常信息里面,那個url好像本來就訪問不了吧,所以404了,就爬不到數據了呀

標簽: java
相關文章:
日本不卡不码高清免费观看,久久国产精品久久w女人spa,黄色aa久久,三上悠亚国产精品一区二区三区
伊人久久婷婷| 人在线成免费视频| 午夜视频精品| 亚洲激情黄色| 模特精品在线| 视频一区中文字幕国产| 丝瓜av网站精品一区二区| 91久久午夜| 六月丁香综合| 丝瓜av网站精品一区二区| 久久国产高清| 亚洲一区二区毛片| 在线 亚洲欧美在线综合一区| 91精品啪在线观看国产18| 亚洲精品福利电影| 久久青草久久| 欧美aa国产视频| 亚洲少妇一区| 亚洲精品在线二区| 国产精品综合色区在线观看| 九九99久久精品在免费线bt| 日韩在线观看一区| 亚洲色诱最新| 日韩不卡手机在线v区| 久久不见久久见免费视频7| 精品美女在线视频| 国产在线一区不卡| 亚洲不卡av不卡一区二区| 亚洲精品成人| 日本中文字幕视频一区| 国产精品美女在线观看直播| 电影91久久久| 国产综合婷婷| 三级欧美韩日大片在线看| 日韩三区四区| 精品视频一二| 欧美影院三区| 日韩av中文在线观看| 日韩1区2区| 免费观看在线综合色| 欧美国产日本| 激情久久中文字幕| 视频一区二区中文字幕| 日韩高清一区在线| 国际精品欧美精品| 亚洲少妇自拍| 国产精品片aa在线观看| 999国产精品999久久久久久| 中文字幕日本一区二区| 国产精品免费不| 四虎影视精品| 日韩**一区毛片| 欧美久久天堂| 日韩制服丝袜先锋影音| 精品一区二区三区的国产在线观看 | 日韩久久精品网| 国产视频一区在线观看一区免费| 欧美视频久久| 欧美va天堂在线| 国产探花一区| 中文久久精品| 高潮久久久久久久久久久久久久| 国产免费成人| 97欧美在线视频| 日韩精品高清不卡| 国产一区亚洲| 你懂的国产精品永久在线| 日韩午夜av| 亚洲国产成人二区| 日韩福利在线观看| 欧美日韩精品免费观看视频完整| 欧美激情久久久久久久久久久| 天堂资源在线亚洲| 国产精品hd| 中文字幕中文字幕精品| 欧美性感美女一区二区| 欧美激情精品| 婷婷视频一区二区三区| 91精品国产调教在线观看| 国产精品激情| 爽爽淫人综合网网站| 精品国产aⅴ| 亚洲18在线| 久久婷婷丁香| 免费一级欧美在线观看视频| 模特精品在线| 99久精品视频在线观看视频| 国产欧美91| 中文在线日韩| 午夜国产精品视频免费体验区| 久久精品一区二区三区中文字幕| 只有精品亚洲| 韩日一区二区三区| 98精品视频| 久久精品国产精品亚洲毛片| 日韩av二区在线播放| 亚洲免费高清| 日韩av首页| 亚洲深夜视频| 久久久久久婷| 精品一区二区男人吃奶| 国产精品videossex久久发布 | 精品日韩视频| 精品久久久中文字幕| 久久精品99国产国产精| 亚欧洲精品视频在线观看| 亚洲一区免费| 久久中文字幕av一区二区不卡| 久久精品天堂| 国产高清精品二区| 国产乱人伦精品一区| 日韩黄色av| 日韩av中文字幕一区二区| 亚洲ab电影| 日韩专区视频网站| 中文字幕日本一区| 蜜臀av在线播放一区二区三区 | 日韩**一区毛片| 日韩欧美四区| 在线国产日韩| 红桃视频欧美| 亚洲自啪免费| 亚洲三级网站| 日本成人在线不卡视频| 日韩高清三区| 日本成人在线不卡视频| 欧美一级网址| 国产精品三p一区二区| 国产精品s色| 成人污污视频| 日韩欧美字幕| 亚洲大片在线| 欧美日韩国产综合网| 日韩午夜在线| 亚洲久久视频| 日韩欧美在线精品| 国产精品亚洲人成在99www| 欧美激情久久久久久久久久久| 精品视频国内| 秋霞影院一区二区三区| 午夜视频精品| 综合一区二区三区| 国产欧美日韩在线观看视频 | 欧美天堂一区| 精品资源在线| 日韩另类视频| 一区视频在线| 涩涩涩久久久成人精品| 日韩动漫一区| 捆绑调教美女网站视频一区 | 五月天久久网站| 免费成人在线观看| 欧美一区不卡| 国内不卡的一区二区三区中文字幕| 成人美女视频| 视频在线在亚洲| 久久av国产紧身裤| 99精品美女| 日精品一区二区三区| 久久久精品国产**网站| 日韩在线短视频| 亚洲黄色影院| 青青伊人久久| 色在线视频观看| 午夜视频精品| 91嫩草精品| 电影天堂国产精品| 中文无码久久精品| 国产一区二区三区四区大秀| 亚洲成人精选| 欧美日韩一区二区国产| 色一区二区三区| 亚洲精品女人| 久久男人av资源站| 蜜臀av一区二区在线免费观看 | 在线日韩欧美| 日韩av一区二区三区四区| 四虎8848精品成人免费网站| 日韩亚洲精品在线| 久久av国产紧身裤| 午夜久久tv| 国产精品亚洲四区在线观看| 欧美精品资源| 欧美一级久久| 免费视频亚洲| 久久不见久久见国语| 欧美日韩精品免费观看视频完整| 国产丝袜一区| 久久影院一区| 国产精品入口久久| 午夜精品影院| 国语对白精品一区二区| 首页国产欧美日韩丝袜| 国产一区精品福利| 亚洲综合五月| 亚洲成人av观看| 国产乱子精品一区二区在线观看 | 亚洲精品麻豆| 日韩理论视频| 国产探花一区在线观看|