百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术教程 > 正文

使用requests库和urlretrieve下载pdf文件

csdh11 2025-02-14 22:47 24 浏览

一、代码如下:

import requests   #导入请求库
from urllib.request import urlretrieve     #从urllib.request导入下载函数urlretrieve
import re,time   #导入正则库和时间库
from lxml import etree   #从lxml导入etree类
def gethtml():   #定义函数gethtml用来下载pdf文件
    url="http://www.gov.cn/zhengce/pdfFile/downloadFile.htm"   #设置请求网址
    headers={
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36"
    }                 #设置请求头headers
    response=requests.get(url,headers=headers)    #通过headers伪装对网站url进行get请求,并将响应内容赋值给response变量
    response.encoding=response.apparent_encoding   #根据网页内容解析出网页的编码格式并赋值给响应的编码变量response.encoding
    html=response.text   #将网页的相应的文本内容赋值给html
    html=etree.HTML(html)   #对html构造了一个XPath解析对象并对自动修正并赋值给html
    result=html.xpath('//tbody/tr')   #使用xpath找到tr标签并赋值给result
    urllist=[]   #定义接收网址的空列表urllist
    for info in result:    #遍历result里的变量info
        try:   #尝试操作
            urllist.append("http://www.gov.cn"+info.xpath('./td[2]/a/@href')[-1])   #将解析到的td标签的href属性值的最后一个元素与"http://www.gov.cn"相加并添加到列表urllist中
        except:   #当接收到错误时,
            continue  #继续执行
    # print(urllist)
    for downurl in urllist:   #遍历urllist列表中的网址downurl
        urlretrieve(downurl,"E://IT/PYthon/PYTHON试验/gov/"+downurl.split("/")[-1])   #下载网址downurl,并保存到本机的E://IT/PYthon/PYTHON试验/gov/文件夹下面,文件名用下载网址的最后切割的名称
        print("E://IT/PYthon/PYTHON试验/gov/"+downurl.split("/")[-1]+"下载成功")   #打印下载成功
        time.sleep(0.1)   #每执行一次下载休眠0.1秒
gethtml()   #调用gethtml函数

二、代码运行结果如下:

E://IT/PYthon/PYTHON试验/gov/PDF_ALL.zip下载成功

E://IT/PYthon/PYTHON试验/gov/2020_PDF.pdf下载成功

E://IT/PYthon/PYTHON试验/gov/2019_PDF.pdf下载成功

E://IT/PYthon/PYTHON试验/gov/2018_PDF.pdf下载成功

E://IT/PYthon/PYTHON试验/gov/2017_PDF.pdf下载成功

E://IT/PYthon/PYTHON试验/gov/2016_PDF.pdf下载成功

E://IT/PYthon/PYTHON试验/gov/2015_PDF.pdf下载成功

E://IT/PYthon/PYTHON试验/gov/2014_PDF.pdf下载成功

E://IT/PYthon/PYTHON试验/gov/2013_PDF.pdf下载成功

E://IT/PYthon/PYTHON试验/gov/2012_PDF.pdf下载成功

E://IT/PYthon/PYTHON试验/gov/2011_PDF.pdf下载成功

E://IT/PYthon/PYTHON试验/gov/2010_PDF.pdf下载成功

E://IT/PYthon/PYTHON试验/gov/2009_PDF.pdf下载成功

E://IT/PYthon/PYTHON试验/gov/2008_PDF.pdf下载成功

E://IT/PYthon/PYTHON试验/gov/2007_PDF.pdf下载成功

E://IT/PYthon/PYTHON试验/gov/2006_PDF.pdf下载成功

E://IT/PYthon/PYTHON试验/gov/2005_PDF.pdf下载成功

E://IT/PYthon/PYTHON试验/gov/2004_PDF.pdf下载成功

E://IT/PYthon/PYTHON试验/gov/2003_PDF.pdf下载成功

E://IT/PYthon/PYTHON试验/gov/2002_PDF.pdf下载成功

E://IT/PYthon/PYTHON试验/gov/2001_PDF.pdf下载成功

E://IT/PYthon/PYTHON试验/gov/2000_PDF.pdf下载成功

E://IT/PYthon/PYTHON试验/gov/1999_PDF.pdf下载成功

E://IT/PYthon/PYTHON试验/gov/1998_PDF.pdf下载成功

E://IT/PYthon/PYTHON试验/gov/1997_PDF.pdf下载成功

E://IT/PYthon/PYTHON试验/gov/1996_PDF.pdf下载成功

E://IT/PYthon/PYTHON试验/gov/1995_PDF.pdf下载成功

E://IT/PYthon/PYTHON试验/gov/1994muLu.pdf下载成功

E://IT/PYthon/PYTHON试验/gov/1994_PDF.pdf下载成功

E://IT/PYthon/PYTHON试验/gov/1993_PDF.pdf下载成功

E://IT/PYthon/PYTHON试验/gov/1992muLu.pdf下载成功

E://IT/PYthon/PYTHON试验/gov/1992_PDF.pdf下载成功

E://IT/PYthon/PYTHON试验/gov/1991_PDF.pdf下载成功

E://IT/PYthon/PYTHON试验/gov/1990_PDF.pdf下载成功

E://IT/PYthon/PYTHON试验/gov/1989_PDF.pdf下载成功

E://IT/PYthon/PYTHON试验/gov/1988_PDF.pdf下载成功

E://IT/PYthon/PYTHON试验/gov/1987_PDF.pdf下载成功

E://IT/PYthon/PYTHON试验/gov/1986_PDF.pdf下载成功

E://IT/PYthon/PYTHON试验/gov/1985_PDF.pdf下载成功

E://IT/PYthon/PYTHON试验/gov/1984_PDF.pdf下载成功

E://IT/PYthon/PYTHON试验/gov/1983_PDF.pdf下载成功

E://IT/PYthon/PYTHON试验/gov/1982_PDF.pdf下载成功

E://IT/PYthon/PYTHON试验/gov/1981_PDF.pdf下载成功

E://IT/PYthon/PYTHON试验/gov/1980_PDF.pdf下载成功

E://IT/PYthon/PYTHON试验/gov/1979_PDF.pdf下载成功

E://IT/PYthon/PYTHON试验/gov/1978_PDF.pdf下载成功

E://IT/PYthon/PYTHON试验/gov/1973_PDF.pdf下载成功

E://IT/PYthon/PYTHON试验/gov/1971_PDF.pdf下载成功

E://IT/PYthon/PYTHON试验/gov/1970_PDF.pdf下载成功

E://IT/PYthon/PYTHON试验/gov/1969_PDF.pdf下载成功


三、代码和代码运行结果如下图所示:



最终保存到本机的数据如下图所示:



相关推荐

pdf怎么在线阅读?这几种在线阅读方法看看

pdf怎么在线阅读?我们日常生活中经常使用到pdf文档。这种格式的文档在不同平台和设备上的可移植性,以及保留文档格式和布局的能力都很强。在阅读这种文档的时候,很多人会选择使用在线阅读的方法。在线阅读P...

PDF比对不再眼花缭乱:开源神器diff-pdf助你轻松揪出差异

PDF比对不再眼花缭乱:开源神器diff-pdf助你轻松揪出差异在日常工作和学习中,PDF文件可谓是无处不在。然而,有时我们需要比较两个PDF文件之间的差异,这可不是一件轻松的事情。手动逐页对比简直是...

全网爆火!580页Python编程快速上手,零基础也能轻松学会

Python虽然一向号称新手友好,但对完全零基础的编程小白来讲,总会在很长时间内,都对某些概念似懂非懂,每次拿起书本教程,都要从第一章看起。对于这种迟迟入不了门的情况,给大家推荐一份简单易懂的入门级教...

我的名片能运行Linux和Python,还能玩2048小游戏,成本只要20元

晓查发自凹非寺量子位报道|公众号QbitAI猜猜它是什么?印着姓名、职位和邮箱,看起来是个名片。可是右下角有芯片,看起来又像是个PCB电路板。其实它是一台超迷你的ARM计算机,不仅能够运...

由浅入深学shell,70页shell脚本编程入门,满满干货建议收藏

不会Linux的程序员不是好程序员,不会shell编程就不能说自己会Linux。shell作为Unix第一个脚本语言,结合了延展性和高效的优点,保持独有的编程特色,并不断地优化,使得它能与其他脚本语言...

真工程师:20块钱做了张「名片」,可以跑Linux和Python

机器之心报道参与:思源、杜伟、泽南对于一个工程师来说,如何在一张名片上宣告自己的实力?在上面制造一台完整的计算机说不定是个好主意。最近,美国一名嵌入式系统工程师GeorgeHilliard的名片...

《Linux 命令行大全》.pdf

今天跟大家推荐个Linux命令行教程:《TheLinuxCommandLine》,中文译名:《Linux命令行大全》。该书作者出自自美国一名开发者,兼知名Linux博客LinuxCo...

PDF转换是难题? 搜狗浏览器即开即看

由于PDF文件兼容性相当广泛,越来越多的电子图书、产品说明、公司文告、网络资料、电子邮件选择开始使用这种格式来进行内容的展示,以便给用户更好的再现原稿的细节,但需要下载专用阅读器进行转化才能浏览的问题...

彻底搞懂 Netty 线程模型

点赞再看,养成习惯,微信搜一搜【...

2022通俗易懂Redis的线程模型看完就会

Redis真的是单线程吗?我们一般说Redis是单线程,是指Redis的网络IO和键值对操作是一个线程完成的,这就是Redis对外提供键值存储服务的主要流程。Redis的其他功能,例如持久化、异步删除...

实用C语言编程(第三版)高清PDF

编写C程序不仅仅需要语法正确,最关键的是所编代码应该便于维护和修改。现在有很多介绍C语言的著作,但是本书在这一方面的确与众不同,例如在讨论C中运算优先级时,15种级别被归纳为下面两条原则:需要的...

手拉手教你搭建redis集群(redis cluster)

背景:最近需要使用redis存储数据,但是随着时间的增加,发现原本的单台redis已经不满足要求了,于是就倒腾了一下搭建redistclusterredis集群。好了,话不多说,下面开始展示:...

记录处理登录页面显示: HTTP Error 503. The service is unavailable.

某天一个系统的登录页面无法显示,显示ServiceUnavailableHTTPError503.Theserviceisunavailable,马上登录服务器上查看IIS是否正常。...

黑道圣徒杀出地狱破解版下载 免安装硬盘版

游戏名称:黑道圣徒杀出地狱英文名称:SaintsRow:GatOutofHell游戏类型:动作冒险类(ACT)游戏游戏制作:DeepSilverVolition/HighVoltage...

Exchange Server 2019 实战操作指南

...