Java中用爬蟲進行解析的實例方法
我們都知道可以用爬蟲來找尋一些想要的數(shù)據(jù),除了可以使用python進行操作,我們最近學習的java同樣也支持爬蟲的運行,本篇小編就教大家用java爬蟲來進行網(wǎng)頁的解析,具體內(nèi)容請往下看:
1、springboot項目,引入jsoup
<dependency><groupId>org.jsoup</groupId><artifactId>jsoup</artifactId><version>1.10.2</version></dependency>
2、準備解析對象
Content.javapackage com.asia.pojo;import lombok.AllArgsConstructor;import lombok.Data;import lombok.NoArgsConstructor;@Data@NoArgsConstructor@AllArgsConstructorpublic class Content { private String title; private String img; private String price;}
3、爬蟲工具類
HtmlParseUtil.javapackage com.asia.utils;import java.net.URL;import java.net.URLDecoder;import java.util.ArrayList;import java.util.List;import org.jsoup.Jsoup;import org.jsoup.nodes.Document;import org.jsoup.nodes.Element;import org.jsoup.select.Elements;import com.asia.pojo.Content;public class HtmlParseUtil {public static void main(String[] args) throws Exception {new HtmlParseUtil().parseJD('西瓜').forEach(System.out::println);}public List<Content> parseJD(String keywords) throws Exception {String url = 'https://search.jd.com/Search?keyword=' + URLDecoder.decode(keywords, 'GBK');// 解析網(wǎng)頁.(Jsoup返回Document就是瀏覽器的Document對象)Document document = Jsoup.parse((new URL(url)), 30000);Element element = document.getElementById('J_goodsList');Elements elements = element.getElementsByTag('li');List<Content> list = new ArrayList<Content>();for (Element el : elements) {String src = el.getElementsByTag('img').eq(0).attr('data-lazy-img');String price = el.getElementsByClass('p-price').eq(0).text();String name = el.getElementsByClass('p-name').eq(0).text();list.add(new Content(name, src, price));}return list;}}
到此這篇關(guān)于Java中用爬蟲進行解析的實例方法的文章就介紹到這了,更多相關(guān)Java中如何使用爬蟲進行解析內(nèi)容請搜索好吧啦網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持好吧啦網(wǎng)!
相關(guān)文章:
1. 幾款好用的python工具庫(小結(jié))2. python使用pytest接口自動化測試的使用3. Python還能這么玩之只用30行代碼從excel提取個人值班表4. Python基礎(chǔ)之pandas數(shù)據(jù)合并5. js獲取今天、昨天、明天的日期函數(shù)代碼6. AJAX檢測用戶名是否存在的方法7. SpringMail使用過程中的報錯解決辦法8. python 制作本地應用搜索工具9. .NET 6 跨服務器聯(lián)表查詢操作MySql、Oracle、SqlServer等相互聯(lián)表10. ASP.Net MVC利用NPOI導入導出Excel的示例代碼

網(wǎng)公網(wǎng)安備