• Stars
    star
    159
  • Rank 235,916 (Top 5 %)
  • Language
    Python
  • Created almost 8 years ago
  • Updated over 6 years ago

Reviews

There are no reviews yet. Be the first to send feedback to the community and the maintainers!

Repository Details

爬取北大法宝网http://www.pkulaw.cn/Case/

pkulaw_spider

爬取北大法宝网http://www.pkulaw.cn/Case/

1.打开网站,导航栏点击司法案例,看左边法律文档按案由分类,可以看见大概一共2kw左右的文书,实时与裁判文书网同步更新。

2.可以看见文书案例顶部有筛选条件,可以按照日期、法院等筛选。(本爬虫按照日期爬取所有的文书)

3.分析网站内容时发现,点击下一页按钮地址栏的链接并无变化,属于动态网页。

4.使用浏览器自带抓包工具或者fidder,点击下一页按钮,查看http请求。

5.发现记录由/Recod传送,该请求即是需要模拟的请求link,使用requests模拟浏览器直接请求数据库,带上浏览器headers和post data

6.分析得到的url,可以发现start和end参数,我们修改其为我们所需的日期范围。

7.pagesize我们设置为1000,太小页数过多,太大网页加载太慢。pageIndex为页号,其它参数默认。

8.模拟请求数据库,得到法律文档标题和id,第一步先save这些数据。

9.接下来我们来分析单个案件文本内容的请求url

10.点击任一个案件的链接,进入页面,分析http请求

11.我们发现_getFulltext请求的response为我们所需的内容(案件文本),进入getFulltext,http://www.pkulaw.cn/case/FullText/_getFulltext发现并不 12 能返回什么[请求出处],此时查看该请求的headers和data:library=pfnl&gid=1970324872344528&loginSucc=0,只需将data显示的加入url中即可,即http://www.pkulaw.cn/case/FullText/_getFulltext?library=pfnl&gid=1970324872344528&loginSucc=0

13.通过上述url,爬取文书内容。

14.该爬虫是以前无聊写的一个练手程序,最近加了注释上传至github,一为了不使该程序浪费,二可供新手小白参考动态网页的分析,直接分析出数据源请求比 15 使用selenium+phantomJS效率高得多。三可为法律文档研究者提供语料来源借鉴。

2017.9.11 更新

有朋友需求按 案由 爬取文书,因此更新下程序。

可根据时间、案由 来爬取文书  

python crawl_v2.py

(注意按输入提示格式进行输入)

民事:002 刑事:001 行政:005 知识产权:003 国家赔偿:007 执行:006 (更细的案由可以去官网查看、或留言咨询我) 不使用案由(全部文书):classcode 输入空(回车)即可

---------------------------------------------------

2017.9.17 更新

根据需求,增加了按法院级别、关键字来爬取的功能

python crawl_v3.py

(按提示的格式输入)

  1. 输入起始-结束日期
  2. 输入案由编号classcode1: (eg:002(民事),直接输入回车则不考虑案由)
  3. 输入法院级别编号classcode3:(eg:02(北京市),直接输入回车则不考虑法院)
  4. 输入查询关键字:(eg:离婚,直接输入回车则不考虑关键字) (ps:案由编号、法院编号 可到北大法宝官网,通过鼠标右击-审查属性查看;若不会查看,请百度或咨询我) (有bug可留言告知)

2018.6.9

有朋友反应爬取的文书不全(一个案件内容太长,会出现...)
我看了下发现是因为北大法宝网需要登录才能看到案件全文
之前的cookie为已登录,但一定时间后失效了,现在已经重新更新了cookie(直接重新下载crawl_v3.py,运行即可) 这种方式(使用我已登录复制出的cookie)只能维持一定时间(时间长cookie失效),如果能有自己的账号密码最好。
如cookie再失效请留言告知。

2018.6.10

按 日期+案由+法院级别+标题关键字+全文关键字 查询爬取
代码仅供参考,效率和异常处理上并未优化,请自行优化,本项目仅提供指导性方案。
法律文书涉及一定隐私,仅供学术研究,请勿售卖数据!

如项目对您产生了帮助,请star支持!您的认同是我不断进步的动力!!!#

More Repositories

1

geetest_break

极验验证码破解-源码+手册
Python
767
star
2

BiLstm_CNN_CRF_CWS

BiLstm+CNN+CRF 法律文档(合同类案件)领域分词(100篇标注样本)
Python
385
star
3

ParseLawDocuments

对收集的法律文档进行一系列分析,包括根据规范自动切分、案件相似度计算、案件聚类、法律条文推荐等(试验目前基于婚姻类案件,可扩展至其它领域)。
Python
198
star
4

captcha_break_keras

keras theano 验证码破解 字母+数字
Python
61
star
5

SINA_Spider

新浪微博爬虫:登录、关键词微博查询、微博监控
Python
32
star
6

sinaFinanceSpider

爬取新浪财经网http://finance.sina.com.cn/stock/,各股票公司每日公告(爬取股票分析所需语料)
Python
27
star
7

QQSpider

爬取QQ用户信息(qq号、昵称、生日、地址等基本信息)并做简要analysis。
Python
21
star
8

QQZoneParse

模拟登陆QQ空间,获取好友信息,并做分析(年龄分布、性别分布、地址分布等)具体参见说明文档及1049755192文件夹下的分析结果展示。
Python
14
star
9

QQMusicSpider

爬取QQ空间背景音乐并简单分析统计。
Python
13
star
10

EmotionClassificationByMultiLstm

一种尝试解决情绪分类任务中的不平衡问题的分类方法研究。
Python
9
star
11

PythonSort

python版本 常见的排序算法(自己复习整理)
Python
6
star
12

GetProxy

一个爬取代理网站免费代理并测试可用代理的程序。
Python
4
star
13

GraduateSystem

模拟浏览器登录xx大学学生管理系统,并爬取学生成绩。
Python
3
star
14

sina_stock_company_announcement

抓取新浪财经网-个股的公司每日公告,可以辅助股票预测。
Python
3
star
15

Ner_Law_Corpus

Law Corpus for NER Experiment
3
star
16

sklearn_learning_notes

http://cwiki.apachecn.org/pages/viewpage.action?pageId=10814293 sklearn学习笔记
Python
2
star
17

NN_Test_Python

python 简易NN
Python
2
star
18

tensorflow_learning_note

tf学习笔记
Python
2
star
19

FanhuaandLuomu.github.io

My Online Resume
HTML
2
star
20

Visitors

给目标站点http://angularjs.cn/hots增加访【负】客【载】。纯属无聊之作,切勿恶意攻击【违法】,否则查到IP被起诉与本人无关。。。
Python
2
star
21

financeSpider

抓取当天的股票数据,并处理成json格式
Python
2
star
22

Apriori_Learning

学习了苏神的apriori实现,并与python包做了比较
Python
1
star
23

ImageClassification

原文:http://blog.keras.io/building-powerful-image-classification-models-using-very-little-data.html
Python
1
star
24

VAE_NOTES

学习VAE的点滴记载~
Python
1
star
25

web_service

学习使用python-flask 框架搭建简单的web service服务
Python
1
star
26

translate_by_baidu

为了翻译语料,python实现了一个翻译程序,基于百度翻译
Python
1
star
27

RNNTest

python实现简单rnn循环神经网络,实现二进制加法
Python
1
star
28

liangting_demo

1
star
29

PictureSpider

爬取http://desk.zol.com.cn/pc/和http://www.4j4j.cn/zmbz/两个壁纸网站的Demo,程序只实现了抓取每个类别壁纸的首页。虽然程序简单,但这类爬虫很经典,当初研一做《网络编程》助教时曾写进ppt讲解,并在期末考试中考到,供初学者学习。有兴趣的朋友可以进一步实现多线程爬取所有页,或者进一步实现爬取各种分辨率的壁纸,欢迎pull requests。
Python
1
star
30

select_word_captcha

Python
1
star