日本不卡不码高清免费观看,久久国产精品久久w女人spa,黄色aa久久,三上悠亚国产精品一区二区三区

您的位置:首頁技術文章
文章詳情頁

python Xpath語法的使用

瀏覽:115日期:2022-07-04 10:20:24

一、XMl簡介

(一)什么是 XML

XML 指可擴展標記語言(EXtensible)XML 是一種標記語言,很類似 HTML。XML 的設計宗旨是傳輸數據,而非顯示數據。XML 的標簽需要我們自行定義。XML 被設計為具有自我描述性。XML 是 W3C 的推薦標準。W3School 官方文檔:http://www.w3school.com.cn/xml/index.asp

(二)XML 和 HTML 的區別

他們兩者都是用于操作數據或者結構數據,在結構上大致相同的,但他們在本質上卻存在著明顯的區別。

數據格式 描述 設計目標 XML Extensible Markup Language ( 可擴展標記語言) 被設計為傳輸和存儲數據,其焦點是數據的內容。 HTML HyperText Markup Language(超文本標記語言) 顯示數據以及如何更好顯示數據。 HTML DOM Document Object Model for HTML(超文本標文檔對象模型) 通過 HTML DOM,可以訪問所有的 HTML 元素, 連同它們所包含的文本和屬性。可以對其中的內容進行修改和刪除,同時也可以創建新的元素。

(三)XML 的節點關系

<?XML version=’1.0’ encoding=''utf-8><book category='cooking'> <title lang='en'>Harry Potter</title> <author>J K.Rowling</author> <year>2005</year> <price>29.00</price></book>

1.父(Parent)每個元素以及屬性都有一個父。上面是一個簡單的 XML 例子中,book 元素是 title、author、year 以及 price 元素的父

2.子(Children)元素節點可有零個、一個或多個子元素。在上面的例子中,title、author、year 以及 price 元素都是 book 元素的子元素

3. 同胞(Sibling)擁有相同的父的節點。在上面的例子中,title、author、year 以及 price 元素都是同胞

4. 先輩(Ancestor)某節點的父、父的父,等等。在上面的例子中,title 元素的先輩是 book 元素和 bookstore元素

5. 后代(Descendant)某個節點的子,子的子等等。在上面的例子中,bookstore 的后代是 book、title、author、year 以及 price 元素:

二、XPATH

XPath (XML Path Language) 是一門在 XML 文檔中查找信息的語言,可用來在 XML 文檔中對元素和屬性進行遍歷。

(一)選取節點

XPath 使用路徑表達式來選取 XML 文檔中的節點或者節點集。這些路徑表達式和我們在常規的電腦文件系統中看到的表達式非常相似。下面列出了最常用的路徑表達式:

表達式 描述 nodename 選取此節點的所有子節點。 / 從節點選取。 // 從匹配選擇的當前節點選擇文檔中的節點,而不考慮他們的位置。 . 選取當前節點。 .. 選取當前節點的父節點。 @ 選取屬性。

在下面的表格中,我們已列出了一些路徑表達式以及表達式的結果:

路徑表達式 描述 bookstore 選取 bookstore 元素的所有子節點 /bookstore 選取根元素 bookstore。代表元素的絕對路徑。 bookstore/book 選取屬于 bookstore 的子元素的所有 book 元素。 //book 選取所有 book 子元素,而不管它們在文檔中的位置 bookstore//book 選擇屬于 booksore 元素的后代所有的 book 元素,而不管他們位于 bookstore 之下的什么位置。 //@lang 選取名為 lang 的所有屬性。 text() 取標簽當中的值

(二)謂語(Predicates)

謂語用來查找某個特定的節點或者包含某個指定的值的節點,被嵌在方括號中。在下面的表格中,我們列出了帶有謂語的一些路徑表達式,以及表達式的結果:

路徑表達式 描述 /bookstore/book[l] 選取屬于 bookstore 子元素的第一個 book 元素。 /bookstore/book[last()] 選取屬于 bookstore 子元素的最后一個 book 元素。 /bookstore/book[last()-1] 選取屬于 bookstore 子元素的倒數第二個 book 元素。 /bookstore/book[position()<2] 選最前面的一個屬于 bookstore 元素的子元素的 book 元素。 //title[@lang] 選取所有屬性名為 lang 的屬性的 title 元素。 //titlel@lang=‘eng’] 選取所有 tltle 元素,且這些元素有屬性值為 eng 的 lang 屬性。

(三)選取未知節點

XPath 通配符可用來選取未知的 XML 元素。

通配符 描述 * 匹配任何元素節點。 @* 匹配任何屬性節點。

在下面的表格中,我們列出了一些路徑表達式,以及這些表達式的結果:

路徑表達式 描述 /bookstore/* 選取 bookstore 元素的所有子元素 //* 選取文檔中的所有元素。 //title[@*] 選取所有帶有屬性的 title 元素。

(四)選取若干路徑

通過在路徑表達式中使用“|”運算符,您可以選取若干個路徑。在下面的表格中,我們列出了一些路徑表達式,以及這些表達式的結果:

路徑表達式 描述 //book/title //book/price //title //price //price 選取文檔中所有的 price 元素。

三、lxml 模塊

(一)lxml 簡介與安裝lxml 是一個 HTML/XML 的解析器,主要的功能是如何解析和提取 HTML/XML 數據。我們可以利用之前學習的 XPath 語法,來快速的定位特定元素以及節點信息。安裝方法:pip install lxml

(二)lxml 初步使用

1、解析HTML字符串

from lxml import etreetext = '''<div> <ul> <li class='item-0'><a href='http://www.b3g6.com/bcjs/link1.html' rel='external nofollow' rel='external nofollow' rel='external nofollow' >first item</a></li> <li class='item-1'><a href='http://www.b3g6.com/bcjs/link2.html' rel='external nofollow' rel='external nofollow' rel='external nofollow' >second item</a></li> <li class='item-inactive'><a href='http://www.b3g6.com/bcjs/link3.html' rel='external nofollow' rel='external nofollow' rel='external nofollow' >third item</a></li> <li class='item-1'><a href='http://www.b3g6.com/bcjs/link4.html' rel='external nofollow' rel='external nofollow' rel='external nofollow' >fourth item</a></li> <li class='item-0'><a href='http://www.b3g6.com/bcjs/link5.html' rel='external nofollow' rel='external nofollow' rel='external nofollow' >fifth item</a> </ul></div>'''html = etree.HTML(text)result = etree.tostring(html,pretty_print=True).decode(’utf-8’)print(result)from lxml import etreetext = '''<div> <ul> <li class='item-0'><a href='http://www.b3g6.com/bcjs/link1.html' rel='external nofollow' rel='external nofollow' rel='external nofollow' >first item</a></li> <li class='item-1'><a href='http://www.b3g6.com/bcjs/link2.html' rel='external nofollow' rel='external nofollow' rel='external nofollow' >second item</a></li> <li class='item-inactive'><a href='http://www.b3g6.com/bcjs/link3.html' rel='external nofollow' rel='external nofollow' rel='external nofollow' ><span class='bold'>third item</span>></a></li> <li class='item-1'><a href='http://www.b3g6.com/bcjs/link4.html' rel='external nofollow' rel='external nofollow' rel='external nofollow' >fourth item</a></li> <li class='item-0'><a href='http://www.b3g6.com/bcjs/link5.html' rel='external nofollow' rel='external nofollow' rel='external nofollow' >fifth item</a></li> </ul></div>'''# 初始化一個Xpath解析對象html = etree.HTML(text)# 解析對象輸出代碼 是一個bytes類型result = etree.tostring(html,encoding=’utf-8’)print(type(html)) # <class ’lxml.etree._Element’>print(type(result)) # <class ’bytes’>print(result.decode(’utf-8’))

小結:lxml 可以自動修正 html 代碼,例子里不僅補全了 li 標簽,還添加了 body,html 標簽。

2.、lxml 文件讀取

from lxml import etreetext = '''<div> <ul> <li class='item-0'><a href='http://www.b3g6.com/bcjs/link1.html' rel='external nofollow' rel='external nofollow' rel='external nofollow' >first item</a></li> <li class='item-1'><a href='http://www.b3g6.com/bcjs/link2.html' rel='external nofollow' rel='external nofollow' rel='external nofollow' >second item</a></li> <li class='item-inactive'><a href='http://www.b3g6.com/bcjs/link3.html' rel='external nofollow' rel='external nofollow' rel='external nofollow' ><span class='bold'>third item</span>></a></li> <li class='item-1'><a href='http://www.b3g6.com/bcjs/link4.html' rel='external nofollow' rel='external nofollow' rel='external nofollow' >fourth item</a></li> <li class='item-0'><a href='http://www.b3g6.com/bcjs/link5.html' rel='external nofollow' rel='external nofollow' rel='external nofollow' >fifth item</a></li> </ul></div>'''# 初始化一個Xpath解析對象html = etree.HTML(text)# 解析對象輸出代碼 是一個bytes類型result = etree.tostring(html,encoding=’utf-8’)print(type(html)) # <class ’lxml.etree._Element’>print(type(result)) # <class ’bytes’>print(result.decode(’utf-8’))

除了直接讀取字符串,lxml 還支持從文件里讀取內容。我們新建一個 hello.html 文件,再利用 etree.parse()方法來讀取文件。注意:從文件中讀取數據,要求文件內容符合 xml 格式,如果標簽缺失,則不能正常讀取。

四、XPath 節點信息解析:

# 安裝lxml: pip install lxml# 1. 導入etree: 兩種導入方式# 第一種: 直接導入from lxml import etree# 注意: 此種導入方式,可能會導致報錯(etree下面會出現紅色波浪線,不影響正常使用)# 第二種: # from lxml import html# etree = html.etreestr = ’<bookstore>’ ’<book>’ ’<title lang='bng' src='https://www.baidu.com'>Harry Potter</title>’ ’<price>29.99</price>’ ’</book>’ ’<book>’ ’<title lang='ang'>Learning XML</title>’ ’<price>39.95</price>’ ’</book>’ ’<book>’ ’<title lang='cng'>西游記</title>’ ’<price>69.95</price>’ ’</book>’ ’<book>’ ’<title lang='dng' src='https://www.jd.com'>水滸傳</title>’ ’<price>29.95</price>’ ’</book>’ ’<book>’ ’<title lang='dng' src='https://www.jd.com'>三國演義</title>’ ’<price>29.95</price>’ ’</book>’ ’</bookstore>’# 2. etree.HTML() 將字符串轉換成HTML元素對象,可以自動添加缺失的元素html = etree.HTML(str) # <Element html at 0x1e17b839708> 是一個el對象# print(html)# 3. 方法:# 3.1 tostring() 查看轉換之后的內容(二進制類型)# 如果想要查看字符串,需要解碼# 如果想要顯示漢字,需要先編碼,再解碼# content = etree.tostring(html,encoding=’utf-8’)# print(content.decode())# 3.2 xpath()方法 作用:提取頁面數據,返回值是一個列表# xpath的使用一定是建立在etree.HTML()之后的內容中的# xpath是如何來提取頁面數據的?# 答:使用的是路徑表達式# 3.2.1 xpath路徑分為兩種:# 第一種: / 代表一層層的查找,如果/存在于開頭,代表根路徑# bookstore = html.xpath(’/html/body/bookstore’)# print(bookstore) # [<Element bookstore at 0x2dd535efb88>]# 第二種: // 任意路徑 焦點在元素身上# 例如:查找bookstore標簽# bookstore = html.xpath(’//bookstore’)# print(bookstore) # [<Element bookstore at 0x1639054fdc8>]# 第一種和第二種結合# 例如:查找所有book標簽# book = html.xpath(’//bookstore/book’)# print(book) # [<Element book at 0x2737fd7fa48>, <Element book at 0x2737fd7fc88>, <Element book at 0x2737fd7fcc8>, <Element book at 0x2737fd7fd08>, <Element book at 0x2737fd7fd88>]# 3.2.2 /text() 獲取標簽之間的內容# 例如:獲取所有title標簽的內容# 步驟:# 1. 找到所有title標簽# 2. 獲取內容# title = html.xpath(’//book/title/text()’)# print(title) # [’Harry Potter’, ’Learning XML’, ’西游記’, ’水滸傳’, ’三國演義’]# 3.3 位于 使用[] 可以理解成條件# 3.3.1 [n] 代表獲取第n個元素,n是數字,n<=1# 例如: 獲取第二個title標簽# title = html.xpath(’//book[2]/title/text()’)# title1 = html.xpath(’//title[2]/text()’)# print(title) # [’Learning XML’]# print(title1) # []# last() 獲取最后一個# 同理: last()-1 獲取倒數第二個# 例如: 獲取最后一本書的title標簽之間的內容# title = html.xpath(’//book[last()]/title/text()’)# title1 = html.xpath(’//book[last()-1]/title/text()’)# print(title) # [’三國演義’]# print(title1) # [’水滸傳’]# 3.3.2 position() 位置,范圍 支持 > / < / = / >= / <= / !=# 例如: 獲取最后兩本書的title標簽之間的內容# 步驟:# 1. 先獲取后兩本書# 2. 獲取內容# title = html.xpath(’//book[position()>3]/title/text()’)# print(title) # [’水滸傳’, ’三國演義’]# ? title = html.xpath(’//book[position()>last()-2]/title/text()’)# print(title) # [’水滸傳’, ’三國演義’]# 3.3.3 獲取屬性值:@屬性名# 例如: 獲取lang屬性值為cng的title標簽的內容# title = html.xpath(’//book/title[@lang='cng']/text()’)# print(title) # [’西游記’]# 例如: 獲取包含src屬性得title標簽的內容# title = html.xpath(’//book/title[@src]/text()’)# print(title) # [’Harry Potter’, ’水滸傳’, ’三國演義’]# 例如: 獲取包含屬性的title標簽的內容# title = html.xpath(’//book/title[@*]/text()’)# print(title) # [’Harry Potter’, ’Learning XML’, ’西游記’, ’水滸傳’, ’三國演義’]# 例如: 獲取最后一個title標簽的src屬性的值# title = html.xpath(’//book[last()]/title/@src’)# print(title) # [’https://www.jd.com’]# 例如: 獲取所有包含src屬性的標簽之間的內容# node = html.xpath(’//*[@src]/text()’)# print(node) # [’Harry Potter’, ’水滸傳’, ’三國演義’]# 3.4 and 與 連接的是謂語(條件)# 例如: 獲取lang='dng'并且class='t1'的title標簽的內容# title = html.xpath(’//book/title[@lang='dng' and @class='t1']/text()’)# title1 = html.xpath(’//book/title[@lang='dng'][@class='t1']/text()’)# print(title) # [’三國演義’]# print(title1) # [’三國演義’]# 3.5 or 或 連接謂語# 例如: 查找lang='cng'或者lang='bng'的title標簽的內容# title = html.xpath(’//book/title[@lang='cng' or @lang='bng']/text()’)# print(title) # [’Harry Potter’, ’西游記’]# 3.6 | 連接路徑# 例如: 獲取所有title標簽和price標簽之間的內容# title = html.xpath(’//title/text() | //price/text()’)# print(title) # [’Harry Potter’, ’29.99’, ’Learning XML’, ’39.95’, ’西游記’, ’69.95’, ’水滸傳’, ’29.95’, ’三國演義’, ’29.95’]# 3.8 parse() 作用:從文件中讀取數據# 注意: 讀取的文件,必須滿足xml格式**(不存在單標簽,全部都是上標簽)**content = etree.parse(’test.html’)# print(content) # <lxml.etree._ElementTree object at 0x000001DC5CF5ED08>res = etree.tostring(content,encoding=’utf-8’)print(res.decode()) <!DOCTYPE html><html lang='en'><head> <title>test</title></head><body> <h1> 這是一個html </h1></body></html>

到此這篇關于python Xpath語法的使用的文章就介紹到這了,更多相關python Xpath語法內容請搜索好吧啦網以前的文章或繼續瀏覽下面的相關文章希望大家以后多多支持好吧啦網!

標簽: Python 編程
相關文章:
日本不卡不码高清免费观看,久久国产精品久久w女人spa,黄色aa久久,三上悠亚国产精品一区二区三区
蜜桃视频一区二区三区在线观看| 欧美日韩国产在线一区| 一区二区精彩视频| 噜噜噜躁狠狠躁狠狠精品视频| 日韩午夜av| 男女精品网站| 日韩美女精品| 亚洲精品系列| 日韩av中文在线观看| 青青草伊人久久| 国产亚洲字幕| 久久久精品区| 欧美精选视频一区二区| 精品久久网站| 日韩综合精品| 欧美精品自拍| 色狠狠一区二区三区| 国产探花在线精品| 高清在线一区| 亚洲夜间福利| 综合亚洲自拍| 日韩av影院| 成人一二三区| 欧美日韩激情| 中文字幕一区二区av| 国产精品色在线网站| 精品精品国产三级a∨在线| 91综合网人人| 在线日韩一区| 亚洲精品高潮| 久久中文字幕一区二区三区| 在线人成日本视频| 午夜影院欧美| 日本视频一区二区| 欧美好骚综合网| 亚洲一区日本| 国产欧美日韩视频在线| 欧美天堂视频| 中文精品电影| 久久精品一区二区国产| 91精品高清| 欧美精品中文| 99精品一区| 免费美女久久99| 精品欠久久久中文字幕加勒比| 国产一区二区三区自拍| 欧美偷窥清纯综合图区| se01亚洲视频 | 日韩动漫一区| 91视频一区| 蜜桃av一区二区| 精品久久久中文字幕| 香蕉精品999视频一区二区| 久久99久久久精品欧美| 午夜日韩av| 久久中文字幕导航| 中文在线一区| 国内精品美女在线观看| 日韩精品一级中文字幕精品视频免费观看 | 伊人久久av| 亚洲永久精品唐人导航网址| 91欧美在线| 青草久久视频| av亚洲在线观看| 亚州精品视频| 国产综合激情| 精品免费视频| 日韩高清国产一区在线| 美女毛片一区二区三区四区| 国产高清亚洲| 国产精品第一国产精品| 视频一区二区三区中文字幕| 亚洲精品福利电影| 日本高清久久| 午夜欧美理论片| 欧美激情国产在线| 国产一卡不卡| 亚洲午夜国产成人| 欧美一区三区| www.51av欧美视频| 国产欧美综合一区二区三区| av成人国产| 99久久99久久精品国产片果冰| 国产精品日韩精品中文字幕| 综合干狼人综合首页| 国内精品福利| 理论片午夜视频在线观看| 久久国产三级| 综合一区二区三区| av成人国产| 久久精品主播| 水蜜桃久久夜色精品一区| 国产精品大片免费观看| 97精品国产99久久久久久免费| 久久国产高清| 中文久久精品| 国产一区日韩欧美| 日韩在线欧美| 欧美国产一级| 久久久久久自在自线| 久久99蜜桃| 国产极品一区| 国产精品最新| 国产欧美欧美| 欧美有码在线| 日韩精品欧美大片| 亚洲日本国产| 精品99久久| 精品三级在线| 精品国产不卡一区二区| 久久99精品久久久久久园产越南 | 日韩国产欧美三级| 亚洲人成高清| 中文字幕日韩高清在线 | 亚洲字幕久久| 婷婷综合国产| 婷婷综合一区| 热久久久久久| 国产欧美日韩精品一区二区免费| 日韩av一区二区在线影视| 日韩精品一区二区三区中文在线| 少妇精品久久久| 日韩精品成人在线观看| 一二三区精品| 日本不卡高清| 国产欧美一区二区色老头| 国产欧美高清视频在线| 欧美精品福利| 影视先锋久久| 亚洲一区观看| 亚洲精品黄色| 青青草国产成人99久久| 国产欧美综合一区二区三区| 国产精品综合色区在线观看| 国产伦理一区| 国产一区二区三区四区五区传媒| 国产一区三区在线播放| 电影天堂国产精品| 亚洲欧美综合| 日韩精品一区第一页| 日韩福利视频网| 国产精品成人自拍| 国产精品草草| 中文字幕在线看片| 亚洲成人精选| 日本va欧美va欧美va精品| 国产精品天堂蜜av在线播放| 久久69成人| 久久精品av| 只有精品亚洲| 国产精品观看| 91精品国产成人观看| 亚洲一区二区成人| 亚洲精品免费观看| 久久婷婷国产| 91精品国产成人观看| 国产视频一区欧美| 中文字幕一区二区三区四区久久 | 亚洲尤物av| 国产精品v日韩精品v欧美精品网站| 国产精品久久久免费| 不卡中文字幕| 91精品国产自产观看在线| 精品精品国产三级a∨在线| 亚洲手机在线| 日本在线视频一区二区| 久久久久久夜| 丝袜美腿一区二区三区| 国产精品大片| 国内精品99| 国产日韩欧美一区在线| 日韩黄色大片| 免费人成在线不卡| 久久99国产精品视频| 亚洲精品1区| 久久99偷拍| 国产日韩综合| 精品久久久网| 石原莉奈在线亚洲三区| 麻豆精品av| 国产毛片一区| 精品亚洲精品| 亚洲一区二区成人| 精品久久久中文字幕| 视频在线观看一区| 国产精品成久久久久| 久久亚洲国产精品一区二区| 国产一区二区三区不卡av| 亚洲一区成人| 国产精品13p| 日韩精品福利一区二区三区| 久久激情一区| 国产精品资源| 免费日韩精品中文字幕视频在线| 黄色网一区二区| 亚洲精品乱码| 国产99精品| 红杏一区二区三区| 日本不卡一区二区三区| 国产一区视频在线观看免费|