千锋武汉老师教你如何开始写第一个Python脚本

来源：千锋教育

发布人：小凯

时间： 2019-04-24 09:18:00

　　好多同学在入门python的时候都是以爬虫开始入手，而网络爬虫是近几年比较流行的概念，特别是在大数据分析热门起来以后，学习网络爬虫的人越来越多。一般的爬虫具有2个功能：取数据和存数据。而从这2个功能拓展，需要的知识就很多了。请求数据、反爬处理、页面解析、内容匹配、绕过验证码、保持登录以及数据库等相关知识。今天，千锋武汉老师就分享做一个简单的爬虫，一般需要哪几个步骤。

　　存数据

　　首先说存数据，是因为在初期学习的时候，接触的少，也不需要太过于关注。随着学习的慢慢深入，我们需要保存大批量数据的时候，就需要去学习数据库的相关知识了。

　　初期，我们抓到需要的内容后，只需要保存到本地，无非保存到文档、表格(Excel)等几个方法，这里大家只需要掌握WITH语句就基本可以保证需求了。大概是这样的：

　　WITH OPEN(路径以及文件名，保存模式) AS F:F.WRITE(数据)#如果是文本可直接写入，如果是其他文件，数据为二进制模式更好

　　当然保存到Excel表格或者Word文档需要用到 XLWT库(Excel)、Python-DOCX库(Word)，这个方面的相关内容学习，你可以在千锋武汉Python培训听老师详细讲解。

　　取数据

　　怎么来抓取我们想要的数据呢?一般所谓的取网页内容，是指通过Python脚本实现访问某个URL地址(请求数据)，然后获得其所返回的内容(HTML源码，Json格式的字符串等)。然后通过解析规则(页面解析)，分析出我们需要的数据并取(内容匹配)出来。

　　在python中实现爬虫非常方便，有大量的库可以满足我们的需求，比如先用Requests库取一个URL(网页)的源码，Import Requests#导入库URL = '你的目标网址'Response = Requests.Get(URL) #请求数据Print(Response.text) #打印出数据的文本内容。

　　这几行代码就可以获得网页的源代码，但是有时候这里面会有乱码，因为中文网站中包含中文，而终端不支持GBK编码，所以我们在打印时需要把中文从GBK格式转为终端支持的编码，一般为UTF-8编码。

　　所以我们在打印Response之前，需要对它进行编码的指定(可以直接指定代码显示的编码格式为网页本身的编码格式，比如UTF-8，网页编码格式一般都在源代码中的标签下的Charset属性中指定)。Response.encode = 'UTF-8' #指定编码格式。至此，我们已经获取了网页的源代码，接下来就是在源代码中找到需要的内容，这里就需要用到各种匹配方式了，常用的几种方式有：正则表达式(RE库)、BS4(Beautifulsoup4库)、Xpath(lxml库)。

　　千锋老师建议大家从正则开始学习，最后一定要看看Xpath，这个在爬虫框架Scrapy中用的很多。

　　通过各种匹配方式找到我们的内容后(注意：一般匹配出来的是列表)，就到了上面所说的存数据的阶段了，这就完成了一个简单的爬虫。总之，学习本身是一个漫长的过程，我们需要不断地练习来增强我们的学习兴趣，以及学到更扎实的知识，加入千锋武汉Python培训，学习更多专业知识。

声明：本站稿件版权均属千锋教育所有，未经许可不得擅自转载。