Spider Learning
- Language : Python3
- Content : 一些爬虫的学习实例和自己的爬虫实战汇总,包含入门阶段和中级阶段的两阶段实战内容,技术手段包括XPath、BeautifulSoup、正则表达式、Ajax异步加载、代理IP、多线程、抓包工具、字体反爬、 JS逆向、Scrapy框架、反调试、验证码等。
- Notice : 欢迎关注我的微信公众号,与我一起成长~
- 内含大量Python学习资源,电子书,视频,扫码关注即可
入门阶段
- 推荐嵩天教授的Python语言课和爬虫课入门,下面是课程的慕课链接
- 因为网页代码的变动,课程内的部分爬虫都无法正确爬取内容,理解学习爬虫技术即可
- 戳我看课程的爬虫代码
- 下面是一些重要的爬虫技术手段,有些代码辅以文章,可以拉到底部表格查阅~
XPath
BeautifulSoup
正则表达式
Ajax异步加载
代理IP
多线程
抓包工具Fiddler
中级阶段
字体反爬
JS逆向
Scrapy框架
反调试
验证码
Number | Website | Article |
---|---|---|
1 | 豆瓣 | 豆瓣电影排行榜 |
2 | 大学排名 | |
3 | 微博 | |
4 | 研招网 | 爬取研招网调剂信息 |
5 | 代理IP | |
6 | 淘宝 | |
7 | 股票 | |
8 | 猫眼 | 爬取豆瓣、猫眼流浪地球数万条评论信息 |
9 | 儿童故事 | 给女友定时发送睡前小故事 |
10 | CSDN | |
11 | 百度热点 | |
12 | 笔趣阁 | |
13 | 腾讯视频 | 爬取腾讯视频电视剧弹幕 |
14 | 英文短文 | |
15 | 公交信息 | |
16 | 网易云阅读 | |
17 | 今日头条 | |
18 | 网易云音乐 | JS逆向之网易云音乐 |
19 | 拉勾 | |
20 | 有道翻译 | JS逆向初探之有道翻译 |
21 | 阿里文学 | JS逆向之阿里文学 |
22 | unsplash | scrapy实战之unsplash |
23 | 掌上英雄联盟 | 一键抓取掌盟文章 |
24 | 微信公众号 | 批量下载文章 |
25 | 链家 | |
26 | 实习僧 | 字体反爬之实习僧 |
27 | 汽车之家 | 字体反爬之汽车之家 |
28 | 大众点评 | 字体反爬之大众点评 |
29 | 阴阳师 | |
30 | 梦幻西游 | |
31 | 台风 | |
32 | 全国历史天气 | |
33 | 牛客网 | Python爬取海量面经 |
34 | PentaQ电竞 | Python爬取英雄联盟职业比赛数据 |
35 | 因不可抗力已删除 | |
36 | 知乎 | 知乎海量表情包 |
37 | wish |