• Stars
    star
    118
  • Rank 299,923 (Top 6 %)
  • Language
    Python
  • Created over 5 years ago
  • Updated about 5 years ago

Reviews

There are no reviews yet. Be the first to send feedback to the community and the maintainers!

Repository Details

📦 原创开发的 爬虫实用工具 【特定代理池】【特定cookies池】【注册辅助工具】

SpiderUtilPackage

不断增加更新中...

一些常用的方便爬虫工作的工具包

Author Zok
Email [email protected]
BLOG www.zhangkunzhi.com

工具表


directory tree


.
├── Proxy                               //      代理工具包 
│   ├── ZhiMaProxyPool.py               // 芝麻代理ip清洗工具
│   ├── ZhiMaProxyUseDemo.py            // 芝麻代理池客户端使用Demo
│   ├── XDLProxyPool.py                 // 讯代理ip清洗工具
│   └── XDLProxyUseDemo.py              // 讯代理池客户端使用Demo
├── Register                            //      注册类工具
│   └── MessageCode.py                  // 异步验证短信接收器
├── Cookies                             //      Cookies获取
│   └── MeiTuan                         // 异步并发批量获取美团登陆Cookies
├── DataMigration                       //      跨数据库迁移
│   ├── db                              // 基础数据库封装包
│   └── migration                       // 迁移器
├── Decode                              //      可拓展式解密器
├── Jsencrypt                           //      自动生成encrypt加密
└── README.md


可拓展式解密器

博客传送门

方便测试可连续转换重制的编码转换器,可灵活拓展解码规则


代理池清洗工具

博客传送门

爬虫经常会用到代理ip,其中有很多收费ip,但是如何在scrapy中,高效使用这些ip是一个比较麻烦的事情,在这里基于芝麻代理ip做一个代理池监控器,首先整理我们的需求再对其代理质量进行管理,从而保持高效IP使用率

key位置


验证码短信接收器

基于短信接收平台的异步短信接收器,最大并发上限 20,Python3.5+。 启动后会根据设置的异步并发数进行获取手机号码并监听短信接收情况(60秒) 超过60秒后会将未收到短信的手机号拉入黑名单,并是释放。

若要配置具体某个网站使用,还需开发对应的账号注册器,配合调用本短信接收器来达到自动注册账号的功能


cookies获取Demo

基于Pyppeteer 并发获取站点cookies

  • 美团登陆cookies

跨数据库迁移器

工作中经常有这种需求

将采集好的mongodb数据转存到mysql中,或者是redis数据转到mongodb,于是打算封装一个组件便于以后调用

  • mysql 数据迁移 mongodb

More Repositories

1

Python3-Spider

Python爬虫实战 - 模拟登陆各大网站 包含但不限于:滑块验证、拼多多、美团、百度、bilibili、大众点评、淘宝,如果喜欢请start ❤️
Python
2,957
star
2

Spider-Tools

📦爬虫工具 【自动识别 验证码 12306、TX、Sina、Sogou 等】【免费短信接收】【一键获取代理IP】【正则匹配测试】【一键转码】【HASH】【IP查询】【网页调试】喜欢的话请 star 支持一下
468
star
3

CRM-Manage

企业数据管理系统 【Django组件开发】【权限、路由组件】可拆卸系统组件,适用性强
Python
115
star
4

rbac-stark-crm

废弃版 Django 组件 新版 https://github.com/wkunzhi/CRM-Manage
Python
34
star
5

FridaHookSysAPI

System level encryption algorithm Hook from Frida
JavaScript
33
star
6

TaoBaoSpider

【爬虫】2019淘宝新反爬解决Demo,selenium无法登陆解决方案
Python
23
star
7

ProxyPool

【代理池框架】代理IP池养成计划,俗称IP小金库。
Python
4
star
8

TaoBaoAttributeSpider

【爬虫】2019淘宝类目、商品属性、类目品牌抓取
Python
4
star
9

RSYZ

运营中项目 https://www.666.cq.cn/robot/ 游戏工具站 谢谢支持
Python
3
star
10

PeopleLogin

人人网登录 代码
JavaScript
2
star
11

DianPingFontPrase

大众点评最新字体解密Demo
Python
2
star
12

captcha_dump

有的时候训练一些特殊验证码, 需要训练集,我们手动识别太累了,所以写了一个简单版的 下载验证码器,并打码返回结果
Python
2
star
13

scrapy-zok

【scrapy组件】基于scrapy的 更新、去重、补漏、UA、持久化存储组件
Python
2
star
14

async_put_oss

网络图片直传OSS,并发批量导入OSS
Python
1
star
15

GirlPhotoSpider

美女图片下载器,性感荷官在线发牌
Python
1
star