Python简单两步实现天气爬虫采集器
说道爬虫大家或许感觉非常神秘,其实它没有我们想象的那么神奇(当然,google和baidu的爬虫是一场复杂和强大的,它的强大不是爬虫本身强大,而是后台的数据处理和数据挖掘算法非常强大),今天我们就来揭开它神秘的面纱。呵呵,简单两步就可以实现一个网页天气爬虫程序。。。
爬虫简单说来包括两个部分:1.获得网页文本信息。2.数据分析,获取其中我们想要的数据。
1、获得网页文本信息。
python在获取html方面十分方便,有了urllib库的帮助,只需要几行代码就可以实现我们需要的功能。
#引入urllib库
importurllib
defgetHtml(url):
page=urllib.urlopen(url)
html=page.read()
page.close()
returnhtml
这里返回的就是网页的源代码,也就是html代码。
那我们如何从中得到我们想要的信息呢?那就需要用到在网页分析里面最最常用的工具-正则表达式了。
2、根据正则表达式等获得需要的内容。
使用正则表达式时需要仔细观察该网页信息的结构,并写出正确的正则表达式。
python正则表达式的使用也很简洁:
#引入正则表达式库
importre
defgetWeather(html):
reg='(.*?).*?(.*?).*?(.*?)'
weatherList=re.compile(reg).findall(html)
returnweatherList
说明:
其中reg是正则表达式,html是第一步获得的文本。findall的作用是找到html中所有符合正则匹配的字符串并存放到weatherList中。之后再枚举weatheList中的数据输出即可。
这里的正则表达式reg有两个地方要注意。
一个是“(.*?)”。只要是()中的内容都是我们将要获得的内容,如果有多个括号,那么findall的每个结果就都包含这几个括号中的内容。上面有三个括号,分别对应城市、最低温和最高温。
另一个是“.*?”。python的正则匹配默认是贪婪的,即默认尽可能多地匹配字符串。如果在末尾加上问号,则表示非贪婪模式,即尽可能少地匹配字符串。在这里,由于有多个城市的信息需要匹配,所以需要使用非贪婪模式,否则匹配结果只剩下一个,且是不正确的。
以上内容为大家介绍了Python简单两步实现天气爬虫采集器,希望对大家有所帮助,如果想要了解更多Python相关知识,请关注IT培训机构:千锋教育。http://www.mobiletrain.org/
相关推荐HOT
更多>>Python企业应用的优缺点
Python是软件开发领域一朵诱人的奇葩:人们经常把Python看作是一种起到缝合作用的严格脚本语言,不过却很少有人意识到Python已经足够强大到应用...详情>>
2023-11-11 21:01:20Python 之什么是类,什么是对象?
类即类别、种类,是面向对象设计最重要的概念,从一小节我们得知对象是特征与技能的结合体,而类则是一系列对象相似的特征与技能的结合体。那么...详情>>
2023-11-11 18:20:34Python 爬虫之pyspider
pyspider是一个支持任务监控、项目管理、多种数据库,具有WebUI的爬虫框架,它采用Python语言编写,分布式架构。详细特性如下:拥有Web脚本编辑...详情>>
2023-11-11 17:49:48python RSA加密算法过程
1,随机选取两个质数p和q2,计算n=pq3,选取一个与Ø(n)互质的小奇数e,Ø(n)=(p-1)(q-1)4,对模Ø(n),计算e的乘法逆元d,即满足(e*d)modØ(n)...详情>>
2023-11-11 17:20:50