日本不卡不码高清免费观看,久久国产精品久久w女人spa,黄色aa久久,三上悠亚国产精品一区二区三区

您的位置:首頁技術文章
文章詳情頁

python實現csdn全部博文下載并轉PDF

瀏覽:14日期:2022-06-16 18:21:40

我們學習編程,在學習的時候,會有想把有用的知識點保存下來,我們可以把知識點的內容爬下來轉變成pdf格式,方便我們拿手機可以閑時翻看,是很方便的

先來一個單個的博文下載轉pdf格式的操作

python實現csdn全部博文下載并轉PDF

python中將html轉化為pdf的常用工具是Wkhtmltopdf工具包,在python環境下,pdfkit是這個工具包的封裝類。如何使用pdfkit以及如何配置呢?分如下幾個步驟。

下載wkhtmltopdf安裝包,并且安裝到電腦上。下載地址:https://wkhtmltopdf.org/downloads.html

python實現csdn全部博文下載并轉PDF

我下的是這個版本,安裝的時候要記住路徑,之后調用要用到路徑

python實現csdn全部博文下載并轉PDF

開發工具 python pycharm pdfkit (pip install pdfkit) lxml

今天目標:博主的全部博文下載,并且轉pdf格式保存

基本思路:

1、url + headers2、分析網頁: CSDN網頁是靜態網頁, 請求獲取網頁源代碼3、lxml解析獲取boke_urls, author_name4、循環遍歷,得到 boke_url5、xpath解析獲取文件名6、css選擇器獲取標簽文本的主體7、構造拼接html文件8、保存html文件9、文件的轉換

分析網頁: CSDN網頁是靜態網頁, 請求獲取網頁源代碼start_url =“https://i1bit.blog.csdn.net/” 為例確定網址為同步加載

python實現csdn全部博文下載并轉PDF

css選擇器獲取標簽文本的主體為代碼要點部分css語法部分

# css選擇器獲取標簽文本的主體html_css = parsel.Selector(response_2)html_content = html_css.css(’article’).get()# 構造拼接html文件html = ’’’<!DOCTYPE html> <html lang='en'> <head><meta charset='UTF-8'><title>Title</title> </head> <body>{} </body></html> ’’’.format(html_content)

點開博主的一篇博文打開開發者工具

python實現csdn全部博文下載并轉PDF

# css選擇器獲取標簽文本的主體html_css = parsel.Selector(response_2)html_content = html_css.css(’article’).get()# 構造拼接html文件html = ’’’<!DOCTYPE html> <html lang='en'> <head><meta charset='UTF-8'><title>Title</title> </head> <body>{} </body></html> ’’’.format(html_content)

文件的轉換

config = pdfkit.configuration(wkhtmltopdf=r’這里為下載wkhtmltopdf.exe的路徑’) pdfkit.from_file(第一個參數要轉變的html文件,第二個參數轉變后的pdf文件,configuration=config ) # 上面這樣寫清楚一點,也可以直接 pdfkit.from_file(第一個參數要轉變的html文件,第二個參數轉變后的pdf文件, configuration=pdfkit.configuration(wkhtmltopdf=r’這里為下載wkhtmltopdf.exe的路徑’) )

源碼展示:

import parsel, os, pdfkitfrom lxml import etreefrom requests_html import HTMLSessionsession = HTMLSession()def main(): # 1、url + headers start_url = input(r’請輸入csdn博主的地址:’) headers = {’User-Agent’: ’Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 ’ ’(KHTML, like Gecko) Chrome/84.0.4147.105 Safari/537.36’ } # 2、分析網頁: CSDN網頁是靜態網頁, 請求獲取網頁源代碼 response_1 = session.get(start_url, headers=headers).text # 3、解析獲取boke_urls, author_name html_xpath_1 = etree.HTML(response_1) author_name = html_xpath_1.xpath(r’//*[@id='floor-user-profile_485']/div/div[1]/div[2]/div[2]/div[1]/div[1]/text()’)[0] boke_urls = html_xpath_1.xpath(r’//article[@class='blog-list-box']/a/@href’) # 4、循環遍歷,得到 boke_url for boke_url in boke_urls:# 5、請求response_2 = session.get(boke_url, headers=headers).text# 6、xpath解析獲取文件名html_xpath_2 = etree.HTML(response_2)file_name = html_xpath_2.xpath(r’//h1[@id='articleContentId']/text()’)[0]# 7、css選擇器獲取標簽文本的主體html_css = parsel.Selector(response_2)html_content = html_css.css(’article’).get()# 8、構造拼接html文件html = ’’’<!DOCTYPE html> <html lang='en'> <head><meta charset='UTF-8'><title>Title</title> </head> <body>{} </body></html> ’’’.format(html_content)# 9、創建兩個文件夾, 一個用來保存html 一個用來保存pdf文件if not os.path.exists(r’{}-html’.format(author_name)): os.mkdir(r’{}-html’.format(author_name))if not os.path.exists(r’{}-pdf’.format(author_name)): os.mkdir(r’{}-pdf’.format(author_name))# 10、保存html文件try: with open(r’{}-html/{}.html’.format(author_name, file_name), ’w’, encoding=’utf-8’) as f:f.write(html)except Exception as e: print(’文件名錯誤’)# 11、文件的轉換try: config = pdfkit.configuration(wkhtmltopdf=r’C:Program Fileswkhtmltopdfbinwkhtmltopdf.exe’) pdfkit.from_file(’{}-html/{}.html’.format(author_name, file_name),’{}-pdf/{}.pdf’.format(author_name, file_name),configuration=config ) a = print(r’--文件下載成功:{}.pdf’.format(file_name))except Exception as e: continueif __name__ == ’__main__’: main()

代碼操作:

python實現csdn全部博文下載并轉PDF

到此這篇關于python實現csdn全部博文下載并轉PDF的文章就介紹到這了,更多相關python 博文下載并轉PDF內容請搜索好吧啦網以前的文章或繼續瀏覽下面的相關文章希望大家以后多多支持好吧啦網!

標簽: Python 編程
相關文章:
日本不卡不码高清免费观看,久久国产精品久久w女人spa,黄色aa久久,三上悠亚国产精品一区二区三区
日韩国产91| 亚洲1区在线| 精品欠久久久中文字幕加勒比| 国产免费播放一区二区| 国产欧美一级| 国产精品极品在线观看| 国产精品九九| 日本一二区不卡| 久久三级视频| 亚洲综合二区| 天堂久久av| 国产精品久久久久久久久久久久久久久| 国产精品一区二区美女视频免费看| 国产精品白浆| 国产劲爆久久| 日韩高清不卡| 野花国产精品入口| 亚洲ab电影| 国产精品三级| 在线天堂中文资源最新版| 日韩美女一区二区三区在线观看| 樱桃视频成人在线观看| 极品日韩av| 综合五月婷婷| 国产探花在线精品一区二区| 国产成人免费av一区二区午夜| 日韩影院二区| 久久先锋影音| 国产精品www.| 亚洲伦乱视频| 免费视频一区三区| 视频精品一区| 精品一区二区三区在线观看视频| 日韩专区精品| 中文国产一区| 7777精品| 91tv亚洲精品香蕉国产一区| 丝袜诱惑制服诱惑色一区在线观看| 欧美日韩91| 日韩在线观看不卡| 亚洲毛片视频| 在线手机中文字幕| 美女日韩在线中文字幕| 欧美成a人片免费观看久久五月天| 丝袜诱惑一区二区| 蜜桃久久av| 国产成人免费精品| 亚洲专区一区| 97精品国产一区二区三区 | 国产福利一区二区精品秒拍| 久久91导航| 日韩专区视频网站| 福利片在线一区二区| 国产精品人人爽人人做我的可爱| 国产精品第十页| 欧美日韩国产高清| 麻豆久久久久久| 欧美日韩第一| 国产精品三p一区二区| 国产一区清纯| 国产精品一区二区三区av麻| 91成人精品| 欧美aa在线视频| 亚洲欧美不卡| 国产精品蜜芽在线观看| 亚洲精品看片| 国产一区清纯| 精品一区av| 亚洲精品极品| 在线日韩一区| 久久久免费人体| 亚洲欧洲日韩| 婷婷精品视频| 欧美成人一二区| 亚洲精品日本| 午夜欧美视频| 色天使综合视频| 久久免费视频66| 日本亚洲欧洲无免费码在线| 激情欧美国产欧美| 久久亚洲国产精品尤物| 日本亚洲视频| 午夜亚洲精品| 深夜视频一区二区| 美女视频网站久久| 日本va欧美va精品发布| 91成人超碰| 国产激情在线播放| 欧美日韩一区二区国产| 美女精品一区| 影音先锋国产精品| 亚洲天堂av影院| 精品国产aⅴ| 欧美在线看片| 日韩精品一级| 亚洲午夜国产成人| 国产精品日韩| 亚洲成人日韩| 久久久久久久久久久妇女| 精品五月天堂| 美女国产一区二区三区| 欧美日本不卡| 日韩美女精品| 视频一区中文字幕精品| 日韩制服丝袜av| 香蕉成人久久| 黄色成人91| 亚洲欧洲午夜| 蜜桃tv一区二区三区| 色综合www| 91看片一区| 在线天堂中文资源最新版| 麻豆国产一区| 精品国产aⅴ| 国产999精品在线观看| 高清一区二区| av日韩中文| 首页国产精品| 四季av一区二区凹凸精品| 国产成人精品一区二区三区视频| 精品一区视频| 日产精品一区二区| 日韩国产激情| 久久影院一区| 国产高清一区| 亚洲一区二区三区四区五区午夜 | 亚洲www啪成人一区二区| 久久伊人国产| 色婷婷综合网| 久久国产欧美| 免费观看久久av| 天堂成人免费av电影一区 | 欧美精品一卡| 性欧美精品高清| 蜜臀av性久久久久蜜臀aⅴ流畅 | 蜜桃av一区二区三区电影| 蜜芽一区二区三区| 免费一级片91| 久久狠狠久久| 精品一区二区三区亚洲| 不卡福利视频| 欧洲激情综合| 蜜桃一区二区三区在线观看 | 亚洲综合图色| 欧美日韩午夜电影网| 精品黄色一级片| 日韩精品欧美| 欧美综合二区| 国产伦理一区| 亚洲啊v在线| 欧美日韩日本国产亚洲在线| 蜜桃视频第一区免费观看| 日本成人手机在线| 精品一区二区三区视频在线播放| 色爱综合av| 日韩在线卡一卡二| 国产精品一区二区免费福利视频| 美女av在线免费看| 欧美网站在线| 国产欧美高清视频在线| www在线观看黄色| 性色一区二区| 久久av网站| 欧美日中文字幕| 日韩欧美久久| 国产成人1区| 夜夜嗨av一区二区三区网站四季av| 午夜久久av| 国产欧洲在线| 国产精品婷婷| 免费视频一区二区三区在线观看| 国产一区日韩欧美| 国产日韩亚洲| 国产91久久精品一区二区| 日韩在线电影| 久久免费黄色| 欧美视频久久| 91久久久精品国产| 国产精品亚洲欧美| 黄色日韩在线| 国产精品.xx视频.xxtv| 欧美一级精品| 国产精品久av福利在线观看| 激情综合网五月| 国产精品久久久久久久久久齐齐| 免费av一区| 久久精品一区| 一区二区亚洲视频| 日韩欧美一区免费| 日韩福利在线观看| 国产专区一区| 久久精品五月| 首页欧美精品中文字幕| 成人在线免费观看91| 亚洲欧美在线综合| 欧美天堂视频| 国产精品一区二区三区美女| 尤物在线精品| 日本免费久久| 久久免费影院|