千锋教育-做有情怀、有良心、有品质的职业教育机构

400-811-9990
手机站
千锋教育

千锋学习站 | 随时随地免费学

千锋教育

扫一扫进入千锋手机站

领取全套视频
千锋教育

关注千锋学习站小程序
随时随地免费学习课程

上海
  • 北京
  • 郑州
  • 武汉
  • 成都
  • 西安
  • 沈阳
  • 广州
  • 南京
  • 深圳
  • 大连
  • 青岛
  • 杭州
  • 重庆
当前位置:武汉千锋IT培训  >  行业资讯  >  千锋武汉老师教你如何开始写第一个Python脚本

千锋武汉老师教你如何开始写第一个Python脚本

来源:千锋教育
发布人:小凯
时间: 2019-04-24 09:18:00

  好多同学在入门python的时候都是以爬虫开始入手,而网络爬虫是近几年比较流行的概念,特别是在大数据分析热门起来以后,学习网络爬虫的人越来越多。一般的爬虫具有2个功能:取数据和存数据。而从这2个功能拓展,需要的知识就很多了。请求数据、反爬处理、页面解析、内容匹配、绕过验证码、保持登录以及数据库等相关知识。今天,千锋武汉老师就分享做一个简单的爬虫,一般需要哪几个步骤。

图片1

  存数据

  首先说存数据,是因为在初期学习的时候,接触的少,也不需要太过于关注。随着学习的慢慢深入,我们需要保存大批量数据的时候,就需要去学习数据库的相关知识了。

  初期,我们抓到需要的内容后,只需要保存到本地,无非保存到文档、表格(Excel)等几个方法,这里大家只需要掌握WITH语句就基本可以保证需求了。大概是这样的:

  WITH OPEN(路径以及文件名,保存模式) AS F:F.WRITE(数据)#如果是文本可直接写入,如果是其他文件,数据为二进制模式更好

  当然保存到Excel表格或者Word文档需要用到 XLWT库(Excel)、Python-DOCX库(Word),这个方面的相关内容学习,你可以在千锋武汉Python培训听老师详细讲解。

  取数据

  怎么来抓取我们想要的数据呢?一般所谓的取网页内容,是指通过Python脚本实现访问某个URL地址(请求数据),然后获得其所返回的内容(HTML源码,Json格式的字符串等)。然后通过解析规则(页面解析),分析出我们需要的数据并取(内容匹配)出来。

  在python中实现爬虫非常方便,有大量的库可以满足我们的需求,比如先用Requests库取一个URL(网页)的源码,Import Requests#导入库URL = '你的目标网址'Response = Requests.Get(URL) #请求数据Print(Response.text) #打印出数据的文本内容。

  这几行代码就可以获得网页的源代码,但是有时候这里面会有乱码,因为中文网站中包含中文,而终端不支持GBK编码,所以我们在打印时需要把中文从GBK格式转为终端支持的编码,一般为UTF-8编码。

  所以我们在打印Response之前,需要对它进行编码的指定(可以直接指定代码显示的编码格式为网页本身的编码格式,比如UTF-8,网页编码格式一般都在源代码中的标签下的Charset属性中指定)。Response.encode = 'UTF-8' #指定编码格式。至此,我们已经获取了网页的源代码,接下来就是在源代码中找到需要的内容,这里就需要用到各种匹配方式了,常用的几种方式有:正则表达式(RE库)、BS4(Beautifulsoup4库)、Xpath(lxml库)。

  千锋老师建议大家从正则开始学习,最后一定要看看Xpath,这个在爬虫框架Scrapy中用的很多。

  通过各种匹配方式找到我们的内容后(注意:一般匹配出来的是列表),就到了上面所说的存数据的阶段了,这就完成了一个简单的爬虫。总之,学习本身是一个漫长的过程,我们需要不断地练习来增强我们的学习兴趣,以及学到更扎实的知识,加入千锋武汉Python培训,学习更多专业知识。

声明:本站稿件版权均属千锋教育所有,未经许可不得擅自转载。

猜你喜欢LIKE

什么是web前端开发?在哪学效果比较好

2023-03-23

JAVA培训班多少钱?JAVA培训班费用的影响因素

2023-03-07

初学武汉Java培训常见的5个问题及解决方案!

2022-06-29

最新文章NEW

想转行学it会不会有更多的就业机会

2023-03-13

如何快速学习java?学习java主要学什么

2023-02-28

学java有什么用,怎样才能学好java

2023-02-23

相关推荐HOT

更多>>

快速通道 更多>>

最新开班信息 更多>>

网友热搜 更多>>