1.爬虫课程的介绍

September 20, 2019

数据获取很重要，在很多领域有重要应用。比如：互联网金融、数据建模、信息聚类、自然语言处理、医疗病例分析、数据分析服务都需要获取数据。随着大数据来临，爬虫也变得更加重要。

知识体系：

环境配置和基础知识铺垫
爬取真实数据
scrapy突破反爬虫技术
scrapy进阶
scrapy redis分布式爬虫
elasticsearch django 实现搜索引擎

爬虫基础知识：

正则表达式
深度优先广度优先算法
url去重策略

课程描述：通过scrapy 爬取技术社区、问答网站、招聘网站来全面介绍。并分析网站结构和网络请求。通过xpath+css来提取数据，也会涉及模拟登陆。图片验证码识别、ip访问频率限制、user-agent的使用。scrapy的原理、基于scrapy的中间件开发。动态网站抓取处理、将selenium和phantomjs集成到scrapy中。scrapy log 配置，email发送，scrapy信号等。通过scrapy redis搭建分布式爬虫，使用到源码使用，并集成bloomfilter到scrapy-redis中。最后，通过elasticsearch django 实现搜索引擎。

Kaige Dong's Site

0.1.5

1.爬虫课程的介绍