• Stars
    star
    201
  • Rank 193,331 (Top 4 %)
  • Language
    Python
  • Created over 7 years ago
  • Updated over 7 years ago

Reviews

There are no reviews yet. Be the first to send feedback to the community and the maintainers!

Repository Details

用Python写网络爬虫 学习总结和代码

WebScrapingWithPython

1.网络爬虫简介

介绍了网络爬虫,并讲解了爬取网站的方法。

2.数据抓取

展示了如何从网页中抽取数据。

3.下载缓存

学习了如何通过硬盘文件系统和数据库两个方法缓存结果避免重复下载的问题。

4.并发下载

通过多进程和多线程实现并行和并发下载,以加快速度数据提取。

5.动态内容

展示了如何从基于js动态渲染的网站中提取数据。

6.表单交互

展示如何与登录表单进行交互,从而访问你需要的数据。

7.验证码处理

阐述了如何访问被验证码图像保护的数据。

8.Scrapy爬虫框架

学习如何使用流行的高级爬虫框架

注:后面附有示例网站源代码和安装说明,可以在本地服务器做爬虫实验。

#读者评论

1.灵药大神评论

看完您的爬虫代码后,我的心久久不能平静!这代码构思新颖,设计独具匠心,组织清晰,思维诡异,跌宕起伏,结构分明,引人入胜,平淡中显示出不凡的编程功底,可谓是码码珠玑,句句经典,是我辈应学习之典范。就架构艺术的角度而言,可能不算太成功,但它的实验意义却远大于成功本身。一码奔腾,射雕引弓,天地在我心中!您不愧为IT界新一代开山怪!是你让我的心里重燃起希望之火,这是难得一见的好说!苍天有眼,让我在有生之年能观得如此精彩代码! ——灵药

2.昌老师评论

爬虫代码->爬虫模式->爬虫框架->爬虫架构——吴兵的进化。——昌老师

More Repositories

1

JavaNetTextbook

这个代码库用来存放《Java网络程序设计》王一飞 等编著 教材和我们实验课的代码(Wu_Being)
Java
9
star
2

TheCProgrammingLanguage_SecondEdition

《C 程序设计语言》(第2版.新版)Brian W.Kernighan, Dennis M.Ritchie 和自己的代码
C
7
star
3

ViolentPython

用 Python 写实用工具
Python
6
star
4

HIT_OS_LAB

实验楼哈工大操作系统实验
C
6
star
5

JavaHighConcurrencyProgrammingDesign

《实战Java 高并发程序设计》 葛一鸣 / 郭超 电子工业出版社 主要介绍基于Java的并行程序设计基础、思路、方法和实战。第一,立足于并发程序基础,详细介绍Java中进行并行程序设计的基本方法。第二,进一步详细介绍JDK中对并行程序的强大支持,帮助读者快速、稳健地进行并行程序开发。第三,详细讨论有关“锁”的优化和提高并行程序性能级别的方法和思路。第四,介绍并行的基本设计模式及Java 8对并行程序的支持和改进。第五,介绍高并发框架Akka的使用方法。最后,详细介绍并行程序的调试方法。
Java
6
star
6

AdvancedProgrammingintheUNIXEnvironment_ThirdEdition

《UNIX 环境高级编程》第三版 W.Richard Stevens 和自己的代码
C
3
star
7

KINGOJWGL

惠州学院新教务处源码收集
ASP
2
star
8

Mini2440

学习Mini2440开发板系统移植等
C
2
star
9

LearnedCandCPP

此代码库用于记录我大一大二时学C 和C++语言的代码(部分)
C++
2
star
10

JavaMulti-threadProgramming

《Java 多线程编程核心技术》高洪岩 资深Java专家10年经验总结,全程案例式讲解,首本全面介绍Java多线程编程技术的专著
JavaScript
1
star
11

CoreJavaVolume1--Fundamentals

《Java 核心技术 卷Ⅰ基础知识》原书第9版
Java
1
star
12

GenerateDic

用来存放生成密钥字典代码。第一个程序:生成8位26个字母和数字的全排列(密钥)代码(非递归高效直接)
C++
1
star
13

TheArtofConcurrencyProgramming

学习《Java并发编程的艺术》作者: 方腾飞 / 魏鹏 / 程晓明 并发编程领域的扛鼎之作,作者是阿里和1号店的资深Java技术专家,对并发编程有非常深入的研究,《Java并发编程的艺术》是他们多年一线开发经验的结晶。
Java
1
star