Python简单两步实现天气爬虫采集器

来源：千锋教育

发布人：xqq

时间： 2023-11-11 03:41:19

说道爬虫大家或许感觉非常神秘，其实它没有我们想象的那么神奇(当然，google和baidu的爬虫是一场复杂和强大的，它的强大不是爬虫本身强大，而是后台的数据处理和数据挖掘算法非常强大)，今天我们就来揭开它神秘的面纱。呵呵，简单两步就可以实现一个网页天气爬虫程序。。。

爬虫简单说来包括两个部分：1.获得网页文本信息。2.数据分析，获取其中我们想要的数据。

1、获得网页文本信息。

python在获取html方面十分方便，有了urllib库的帮助，只需要几行代码就可以实现我们需要的功能。

#引入urllib库

importurllib

defgetHtml(url):

page=urllib.urlopen(url)

html=page.read()

page.close()

returnhtml

这里返回的就是网页的源代码，也就是html代码。

那我们如何从中得到我们想要的信息呢?那就需要用到在网页分析里面最最常用的工具-正则表达式了。

2、根据正则表达式等获得需要的内容。

使用正则表达式时需要仔细观察该网页信息的结构，并写出正确的正则表达式。

python正则表达式的使用也很简洁：

#引入正则表达式库

importre

defgetWeather(html):

reg='(.*?).*?(.*?).*?(.*?)'

weatherList=re.compile(reg).findall(html)

returnweatherList

说明：

其中reg是正则表达式，html是第一步获得的文本。findall的作用是找到html中所有符合正则匹配的字符串并存放到weatherList中。之后再枚举weatheList中的数据输出即可。

这里的正则表达式reg有两个地方要注意。

一个是“(.*?)”。只要是()中的内容都是我们将要获得的内容，如果有多个括号，那么findall的每个结果就都包含这几个括号中的内容。上面有三个括号，分别对应城市、最低温和最高温。

另一个是“.*?”。python的正则匹配默认是贪婪的，即默认尽可能多地匹配字符串。如果在末尾加上问号，则表示非贪婪模式，即尽可能少地匹配字符串。在这里，由于有多个城市的信息需要匹配，所以需要使用非贪婪模式，否则匹配结果只剩下一个，且是不正确的。

以上内容为大家介绍了Python简单两步实现天气爬虫采集器，希望对大家有所帮助，如果想要了解更多Python相关知识，请关注 IT培训机构:千锋教育。http://www.mobiletrain.org/

声明：本站稿件版权均属千锋教育所有，未经许可不得擅自转载。

python的模块

python的用途有哪些?

猜你喜欢LIKE

陆神

原去哪儿网高级架构师

北京大学计算机系毕业

HTML5学科教研总监

千锋威哥

OCP认证专家

15年以上开发经验

Java学科首席技术官

宋宋

原阿里后端架构师

北京邮电大学硕士

Python学科首席技术官

卢老师

北京大学博士后

北京科技大学博士

人工智能学科总监

索尔

原阿里后端架构师

浙工大计算机系毕业

Java学科高级讲师

jackfrued

曾任职华为成都研究所

计算机应用技术博士

Python学科教学主管

快速通道 更多>>

课程介绍
点击获取大纲
就业前景
查看就业薪资
学习费用
了解课程价格
优惠活动
领取优惠券
学习资源
领3000G教程
师资团队
了解师资团队
实战项目
获取项目源码
开班地区
查看来校路线

网友热搜更多>>

IT行业年龄有限制吗女生学IT Java薪资待遇零基础Web培训 Python就业如何学UI设计大数据学习路线 java培训学费软件测试培训转行学Linux 网络安全基础知识网络营销培训 unity培训 30岁还能学it吗大数据技术学什么 python培训费