千锋教育-做有情怀、有良心、有品质的职业教育机构

400-811-9990
手机站
千锋教育

千锋学习站 | 随时随地免费学

千锋教育

扫一扫进入千锋手机站

领取全套视频
千锋教育

关注千锋学习站小程序
随时随地免费学习课程

上海
  • 北京
  • 郑州
  • 武汉
  • 成都
  • 西安
  • 沈阳
  • 广州
  • 南京
  • 深圳
  • 大连
  • 青岛
  • 杭州
  • 重庆
当前位置:武汉千锋IT培训  >  技术干货  >  ​Python简单两步实现天气爬虫采集器

​Python简单两步实现天气爬虫采集器

来源:千锋教育
发布人:xqq
时间: 2023-11-11 03:41:19

说道爬虫大家或许感觉非常神秘,其实它没有我们想象的那么神奇(当然,google和baidu的爬虫是一场复杂和强大的,它的强大不是爬虫本身强大,而是后台的数据处理和数据挖掘算法非常强大),今天我们就来揭开它神秘的面纱。呵呵,简单两步就可以实现一个网页天气爬虫程序。。。

爬虫简单说来包括两个部分:1.获得网页文本信息。2.数据分析,获取其中我们想要的数据。

1、获得网页文本信息。

python在获取html方面十分方便,有了urllib库的帮助,只需要几行代码就可以实现我们需要的功能。

#引入urllib库

importurllib

defgetHtml(url):

page=urllib.urlopen(url)

html=page.read()

page.close()

returnhtml

这里返回的就是网页的源代码,也就是html代码。

那我们如何从中得到我们想要的信息呢?那就需要用到在网页分析里面最最常用的工具-正则表达式了。

2、根据正则表达式等获得需要的内容。

使用正则表达式时需要仔细观察该网页信息的结构,并写出正确的正则表达式。

python正则表达式的使用也很简洁:

#引入正则表达式库

importre

defgetWeather(html):

reg='(.*?).*?(.*?).*?(.*?)'

weatherList=re.compile(reg).findall(html)

returnweatherList

说明:

其中reg是正则表达式,html是第一步获得的文本。findall的作用是找到html中所有符合正则匹配的字符串并存放到weatherList中。之后再枚举weatheList中的数据输出即可。

这里的正则表达式reg有两个地方要注意。

一个是“(.*?)”。只要是()中的内容都是我们将要获得的内容,如果有多个括号,那么findall的每个结果就都包含这几个括号中的内容。上面有三个括号,分别对应城市、最低温和最高温。

另一个是“.*?”。python的正则匹配默认是贪婪的,即默认尽可能多地匹配字符串。如果在末尾加上问号,则表示非贪婪模式,即尽可能少地匹配字符串。在这里,由于有多个城市的信息需要匹配,所以需要使用非贪婪模式,否则匹配结果只剩下一个,且是不正确的。

以上内容为大家介绍了Python简单两步实现天气爬虫采集器,希望对大家有所帮助,如果想要了解更多Python相关知识,请关注IT培训机构:千锋教育。http://www.mobiletrain.org/

声明:本站稿件版权均属千锋教育所有,未经许可不得擅自转载。

猜你喜欢LIKE

在python中如何打乱数据?

2023-11-11

python架构是什么?

2023-11-11

python 列表排序

2023-11-11

最新文章NEW

python 抽象类和接口类

2023-11-11

python 的 Keras函数式模型

2023-11-11

Python生成表达式和列表解析

2023-11-11

相关推荐HOT

更多>>

快速通道 更多>>

最新开班信息 更多>>

网友热搜 更多>>