天眼查、企查查公司信息爬虫
使用说明
-
设置用户状态
抓包工具抓包天眼查、企查查小程序,设置请求头用户鉴权信息,在各自目录的
init.py
文件中。可在此处配置随机UA,项目地址:fake_useragent -
设置数据源
MYSQL_CONFIG = { 'develop': { 'host': '192.168.1.103', 'port': 3306, 'db': 'enterprise', 'username': 'root', 'password': 'root@123' } }
-
执行
db/data.sql
生成数据结构 -
配置IP代理
config/settings
, 开启global proxy前请先自行部署ip代理池,项目地址:proxy_pool# 全局代理控制, GLOBAL_PROXY = True PROXY_POOL_URL = "http://localhost:5010"
-
设置爬取关键字
qichacha
&tianyancha
keys = ['Google'] # 设置爬取列表 crawler.load_keys(keys) crawler.start()
Schedule List
功能 | 日期 | 状态 | 备注 |
---|---|---|---|
鉴权Token提取 | 待完成 | ||
内置IP代理 | 待完成 | ||
防封策略 | 待完成 | ||
容器化运行 | 待完成 |
Please Kindly Note That
程序员技术交流tg群,欢迎大家加入!!!
内有技术交流!工作内推!远程工作!兼职、私活儿!!。
Telegram群链接:程序员社区https://t.me/+iZK2y8zMUiE0NDE1
群二维码: