当前位置:编程学堂 > 如果文章要保存为TXT文件,里面的图片该怎么处理? Python帮你解决

如果文章要保存为TXT文件,里面的图片该怎么处理? Python帮你解决

  • 发布:2023-09-29 20:20

-->

前言

使用python爬取你喜欢的CSDN原创文章并保存为TXT文件。不仅查看不方便,而且文章中的代码和图片无法保存。

今天教大家如何制作PDF并慢慢阅读。如果作者的帐户突然被删除,则会保存备份。

本文视频案例教程链接地址:https://www.sychzs.cn/video/BV1A54y1U78U/

知识点:

  • 要求
  • css选择器

第三方库:

  • 要求
  • 解析
  • pdfkit

开发环境:

  • 版本:anaconda5.2.0(python3.6.5)
  • 编辑:pycharm

代码如下:

1.导入工具

导入pdfkit
导入请求
导入解析

2。请求网站

标题 = {
"主办方": "www.sychzs.cn",
"引用者": "https://www.sychzs.cn/qq_41359265/article/details/102570971",
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, 如 Gecko) Chrome/77.0.3865.90 Safari/537.36",
}

3。打印标签字符串

html_str = """




文件


{文章}

4。用户信息

饼干={
'Cookie': 'uuid_tt_dd=10_6143182820-1560085972444-562851; hm_ct_6bcd52f51e9b3dce32bec4a3997715ac=6525*1*10_6143182820-1560085972444-562851!1788*1*PC_VC!5744*1*weixin_40327641; smidV2=20190402161159283d81caefd878407944f56385d88f5200c18151eb7b63ec0; UN=weixin_40327641; dc_session_id=10_1560780458204.785546; __yadk_uid=dJcgMxYLzl35t9gmGc6bEnRxWhpZGZjq; hm_ct_26c6581897cb7113caba3941e5aa57b0=5744*1*weixin_40327641!6525*1*10_6143182820-1560085972444-562851; hm_ct_e5ef47b9f471504959267fd614d579cd=6525*1*10_6143182820-1560085972444-562851!5744*1*weixin_40327641; hm_ct_62052699443da77047734994abbaed1b=5744*1*weixin_40327641!6525*1*10_6143182820-1560085972444-562851; hm_lvt_62052699443da77047734994abbaed1b=1568382389,1568384316; hm_lvt_26c6581897cb7113caba3941e5aa57b0=1567222806,1569331239; hm_lvt_e5ef47b9f471504959267fd614d579cd=1569495260,1570722031;用户名=weixin_40327641;用户信息=5efb72806ec7429fb885f8cf12233b54;用户令牌=5efb72806ec7429fb885f8cf12233b54; UserNick=%E5%A1%AB%E5%9D%91%E5%B0%8F%E6%87%B5%E9%80%BC; AU=DA1; BT=1570886763298; p_uid=U000000;通知=1; hm_lvt_85a6e71063e38ed893de1d8b6a71f5fe=1570889956; hm_ct_85a6e71063e38ed893de1d8b6a71f5fe=5744*1*weixin_40327641!6525*1*10_6143182820-1560085972444-562851; acw_tc=2760823a15710394714692918e17ecbdca6dba528441074c2c8e1ad8ebea5e;公告=%257B%2522announcementUrl%2522%253A%2522https%253A%252F%www.sychzs.cn%252Farticle%252Fdetails%252F102605809%2522%252C%2522announcementCount%2522%253A1%252 C%2522公告过期%2522%253A535744931%257D ;第一个骰子=1; hm_lvt_6bcd52f51e9b3dce32bec4a3997715ac=1571375632,1571376263,1571474096,1571481979; hm_lvt_3fc28b5205f6aa5f3b16547ffddad367=1571481982;删除=真; hm_lpvt_3fc28b5205f6aa5f3b16547ffddad367=1571481988; hm_ct_3fc28b5205f6aa5f3b16547ffddad367=5744*1*weixin_40327641!6525*1*10_6143182820-1560085972444-562851; acw_sc__v2=5dab061ff4d5b7f68cb6b4fdff578b2c8e4b0add; dc_tos=pzmGX6;

5。爬取文章数据并转换为PDF格式

def get_html(url):
# 发送请求(URL)
# 回复正文
响应 = requests.get(url, headers=headers, cookies=cookie)
# 文本文本(字符串)
#遭遇强烈反对
# 打印(响应.文本) """如何将 HTML 转换为 PDF 格式"""
# 摘录文章部分
sel = www.sychzs.cnor(response.text)
#CSS选择器
文章 = sel.css('文章').get()
标题 = sel.css('h1::text').get()
打印(标题)
打印(文章) html = html_str.format(文章=文章)
with open(f'{title}.html', mode='w',encoding='utf-8') as f:
f.write(html) #exe文件存放路径
config = pdfkit.configuration(wkhtmltopdf='C:\\Program Files\\wkhtmltopdf\\bin\\wkhtmltopdf.exe')
# 通过pdfkit将html转换为pdf文件
pdfkit.from_file(f'{title}.html', f'{title}.pdf', 配置=config)get_html('https://www.sychzs.cn/nosprings/article/details/102609296')

运行代码:

-->

相关文章

最新资讯