• Stars
    star
    188
  • Rank 205,563 (Top 5 %)
  • Language
    Python
  • License
    MIT License
  • Created about 6 years ago
  • Updated almost 6 years ago

Reviews

There are no reviews yet. Be the first to send feedback to the community and the maintainers!

Repository Details

🌈Wenshu_Spider-Scrapy框架爬取中国裁判文书网案件数据(2019-1-9最新版)

Scrapy框架爬取中国裁判文书网案件数据 enter image description here

中国裁判文书网 - http://wenshu.court.gov.cn/

Author 😎Henryhaohao😎
Email ♥️[email protected]♥️

🐬声明

软件均仅用于学习交流,请勿用于任何商业用途!感谢大家!

🐬介绍

该项目为Scrapy框架爬取中国裁判文书网案件数据(2018-10-20最新版)

  • 项目文件: Wenshu_Project
  • 运行须知:

数据库配置 : 运行前根据自己需要修改settings.py中的MongoDB数据库的配置

反爬问题 : 由于文书网的反爬监控很严格(一级验证码,二级验证码,JavaScript反爬,IP检测...),所有采用阿布云动态隧道代理方案,每一次request请求都是不同的IP,这样就不会触发反爬检测了~😎。还是挺好用的,基本上每个IP都可以用,主要也还方便,直接用它的代理服务器发出请求,不用像一般的代理IP那样还需要取出IP,再代入IP进行请求。代理相关配置在middlewares.py的类ProxyMiddleware中。

爬取策略问题 : 现在的文书网总量已经高达5千多万份了,但是每个筛选条件下只能查看20页,每页10条。本项目以爬取1996-2000年的所有文书为例,大家有好的爬取方案,可以自行修改Param参数即可。

速度问题 : 配置在setting.py中:DOWNLOAD_DELAY = 0(无delay实现请求0延时);CONCURRENT_REQUESTS_PER_SPIDER = 5 (开启线程数为5);因为我用的代理配置是默认的每秒5个请求数,所以在此设置线程数为5;如果想爬取更快,可以加大代理请求数(当然是要money滴~),最高可以加到100的请求数,我滴天呀,那得多快啊!我现在的速度大概每秒爬取4个案件,加到100的话,估计每秒80个,一分钟4800个,一小时288000,一天就是6912000,目前总量5千4百万,大概8~9天就能爬完,如果在加上redis分布式的话,哇,不敢想象!😋

🐬运行环境

  • Version: Python3
  • JS解析环境: Nodejs
    有不少小伙伴向我反映运行后报错:execjs._exceptions.ProgramError: TypeError: 'key' 为 null 或不是对象
    解决方案如下:
    如果pyexecjs包没问题的话,那就是没有安装nodejs的问题; 因为你没有安装nodejs的话默认js解析环境是JScript, 但是项目中的js代码有的地方需要node环境才能运行, 所以需要装一下Nodejs再运行就好了;
    注意: nodejs安装完成后记得把IDE关闭重新打开,比如pycharm,不然IDE不会监测到jscript引擎的变化,导致依然报错 关于NodeJs安装可以参考这篇文章: https://www.cnblogs.com/liuqiyun/p/8133904.html

🐬安装依赖库

pip3 install -r requirements.txt

🐬存储数据库

Database: MongoDB

🐬相关截图

  • 运行过程

    enter image description here
  • 数据截图

    enter image description here
  • 阿布云

    enter image description here enter image description here

🐬总结

最后,如果你觉得这个项目不错或者对你有帮助,给个Star呗,也算是对我学习路上的一种鼓励!
哈哈哈,感谢大家!笔芯哟~
💘💘

More Repositories

1

Bilibili_video_download

🌈Bilibili_video_download-B站视频下载
Python
2,807
star
2

12306_Ticket

🌈12306购票/取消订单/退票程序(2019-12-08最新版)
Python
161
star
3

Qimai_AppData

🌈Qimai爬取七麦数据网APP榜单数据
Python
116
star
4

Flask_Movie_Website

🌈Flask_Movie_Website基于Python的Flask框架在线电影网站系统
HTML
110
star
5

API_Music_Download

🌈API_Music_Download各大音乐/FM平台歌曲下载API集合
Python
80
star
6

Slider_Captcha_Crack

🌈Slider_Captcha_Crack某教育网站滑动验证码破解(识别率100%)
Python
52
star
7

Bilibili_Live_Barrage

🌈Bilibili_Live_Barrage实时监控B站直播弹幕并发送跟随弹幕
Python
32
star
8

DouYin_Video

🌈DouYin_Video抖音APP视频下载
Python
30
star
9

Xiecheng_Comment

🌈Xiecheng_Comment多线程Threading爬取携程的丽江古城景点评论并生成词云
Python
25
star
10

Taobao

🌈Selenium+PhantomJS淘宝商品信息的定向爬取
Python
21
star
11

Baidu_Tieba_Signin

🌈Baidu_Tieba_Signin百度贴吧实现一键签到
Python
19
star
12

ZoomEye_Spider

🌈ZoomEye钟旭之眼的登录+关键字爬取 ( 加速乐Cookie破解 )
Python
19
star
13

IT_Orange

🌈Multiprocessing多进程爬取IT桔子网站的10万+公司信息
Python
16
star
14

Aqistudy_Weather

🌈Aqistudy_Weather加密破解Aqistudy中国城市空气质量在线检测平台
Python
15
star
15

Steam_Login

🌈Steam_Login-Steam平台的模拟登录
Python
13
star
16

API_Translation

🌈API_Translationg各大翻译网站API集合
Python
12
star
17

GUI_Artistic_Signature

🌈GUI_Artistic_Signature艺术签名GUI桌面程序
Python
11
star
18

GanJi_ZhuanZhuan

🌈GanJi_ZhuanZhuan爬取赶集网转转平台二手商品
Python
7
star
19

GUI_KugouMusic

🌈Tkinter酷狗音乐GUI桌面程序
Python
4
star
20

MusicCloud163

🌈RSA解密网易云音乐mp3歌曲链接
Python
3
star