1.爬虫课程的介绍
数据获取很重要,在很多领域有重要应用。比如:互联网金融、数据建模、信息聚类、自然语言处理、医疗病例分析、数据分析服务都需要获取数据。随着大数据来临,爬虫也变得更加重要。
知识体系:
- 环境配置和基础知识铺垫
- 爬取真实数据
- scrapy突破反爬虫技术
- scrapy进阶
- scrapy redis分布式爬虫
- elasticsearch django 实现搜索引擎
爬虫基础知识:
- 正则表达式
- 深度优先广度优先算法
- url去重策略
课程描述:通过scrapy 爬取技术社区、问答网站、招聘网站来全面介绍。并分析网站结构和网络请求。通过xpath+css来提取数据,也会涉及模拟登陆。图片验证码识别、ip访问频率限制、user-agent的使用。scrapy的原理、基于scrapy的中间件开发。动态网站抓取处理、将selenium和phantomjs集成到scrapy中。scrapy log 配置,email发送,scrapy信号等。通过scrapy redis搭建分布式爬虫,使用到源码使用,并集成bloomfilter到scrapy-redis中。最后,通过elasticsearch django 实现搜索引擎。