• Stars
    star
    612
  • Rank 72,763 (Top 2 %)
  • Language
    Python
  • Created about 7 years ago
  • Updated over 1 year ago

Reviews

There are no reviews yet. Be the first to send feedback to the community and the maintainers!

Repository Details

根据关键词,对搜索引擎内容检索结果的网址内容进行采集的一款程序。可自动从多个搜索引擎采集相关网站的真实地址与标题等信息,可保存为文件,自动去除重复URL。同时,也可以自定义忽略多条域名等。

最新公告

python版本已停止维护,go语言版本已启动,地址:https://github.com/super-l/msray

如需使用,可查看最新的基于Go语言的url采集项目:msray(于2022年9月发布);

QQ群:235586685
TG群:https://t.me/ms_ray
免费版下载:https://github.com/super-l/msray/releases
商业版文档:http://www.msray.net/doc

程序简介

注意: 开源的python版本由于在构架与设计上无法完美绕过反爬虫机制,已经放弃更新。部分搜索引擎已经更新了规则,如果采集不到内容,可自行修改。

注意,本Superl-l采集工具的python版本,本版本在linux下完美运行,winodws的部分版本有兼容性异常。开源仅为发现此类工具还没有开源与好用的,提供免费技术分享。 如果没有技术基础,在使用者遇到问题,可查看下文的联系方式,自行通过QQ群请教他人无偿或有偿技术调试。

4.0版本已经升级完成。后续的更新可能只是添加更多的搜索引擎支持了。result目录下面,自带了一个测试搜索python的结果txt.

  • 根据关键词,对搜索引擎内容检索结果的网址内容进行采集的一款轻量级软程序。
  • 程序主要运用于安全渗透测试项目,以及批量评估各类CMS系统0DAY的影响程度,同时也是批量采集自己获取感兴趣的网站的一个小程序~~
  • 可自动从搜索引擎采集相关网站的真实地址与标题等信息,可保存为文件,自动去除重复URL。同时,也可以自定义忽略多条域名。

程序特色

  • 支持同时采集多个搜索引擎(已内置了百度,搜狗,360),结构模块化,很方便进行扩展,可以无限添加。
  • 获取到的是搜索引擎的搜索结果的真实URL地址
  • 跨平台,采用Python开发,所有代码完整开源.并且无捆绑后门风险,更新方便。网上大部分URL采集软件为WINDOWS下的可执行文件,并且很多都在搜索引擎更新后无法正常使用。
  • 强大的过滤功能。可过滤多种顶级域名,可过滤指定标题中包含某关键子的URL,比如搜索结果中过滤属于youku.com的子域名URL。支持TXT配置过滤。
  • 可自动去除重复URL
  • 可灵活的通过配置文件自定义要保存的结果格式。比如只输出带参数的原始真实URL,或者只输出域名,或者同时输出标题,搜索引擎名称。
  • 可灵活的开启与关闭参与采集的搜索引擎,比如只想使用百度,就把其他搜索引擎参数设置为False即可。
  • 同时兼容python3和python2版本运行!良心开源小产品啊~~~
  • 可分别自定义不同搜索引擎每页显示数量(如果搜索引擎自身支持的话)
  • 支持多进程同时采集,每个搜索引擎一个进程
  • 可自定义每页采集时间间隔,防止被屏蔽
  • 实时显示采集到的网页的【真实URL】以及【标题】。前面的【ID】对应的是当前页搜索引擎结果的第X条数据
  • 保存类型可自定义,目前支持保存为本地txt,以及写入远程MYSQL数据库!

当前版本

  • Version 4.0

使用效果

  • 测试环境1:系统为Mac Pro 10.12 python版本为2.7和python3【测试通过】
  • 测试环境2:系统为win7 64位。python版本为2.7 【测试通过】
  • 如果发现运行有问题,一般都是操作系统的编码导致的小问题,欢迎截图反馈

image1 image2 image3

安装依赖

  • 如果是python3,则:

      pip install ConfigParser
      
      pip install tldextract
    
  • 如果是Python2,则:

      pip install tldextract
      
      pip install -i https://pypi.tuna.tsinghua.edu.cn/simple configparser
    
  • 如果提示模块不存在,则根据提示进行安装!

  • 一般没有安装tld模块,使用 pip install tld 进行安装。或者官网下载(https://pypi.python.org/pypi/tld/0.7.6)

  • 如果使用遇到问题,可以在博客页面评论留言。

使用说明

  • 如果要采集关键词为“hacker”的相关网站,采集搜索结果的前3页,则输入如下:
  • please input keyword:hacker
  • Search Number of pages:3

配置文件说明 config.cfg

节点 参数 示例值 说明
global save_type mysql 保存类型 可选择file或者mysql 如果是file则保存为本地txt
global sleep_time 1 每次搜索处理完一页后的等待时间,防止太频繁被搜索引擎屏蔽
url url_type realurl 保存文件txt里面显示的url类型。realurl=真实网站地址 baseurl=原始搜索引擎地址 urlparam=带参数的真实网站地址
filter filter_status True 是否开启过滤器,如果开启,则过滤域名和标题都不生效
filter filter_domain True 是否过滤域名
filter filter_title True 是否过滤标题
log write_title True 是否显示标题
log write_name True 是否显示搜索引擎名称
engine baidu True 百度搜索引擎模块是否开启
engine sougou True 搜狗模块是否开启
engine so False 搜搜模块是否开启 (搜搜现在抓取不到了)
pagesize baidu_pagesize 50 每页条数
pagesize sougou_pagesize 50 每页条数
pagesize so_pagesize 10 每页条数
mysql host 127.0.0.1 如果保存类型为Mysql,则此节点必须配置正确
mysql port 3306 端口
mysql user root 用户名
mysql password root 密码
mysql database superldb 数据库名称
mysql table search_data 表名称
file save_pathdir result 如果保存类型为file,则这里设置的是保存的路径,当前为程序根目录的result文件夹
plugin pr True 预留的插件功能,暂时不支持

数据库创建表sql语句

    CREATE TABLE `search_data` (
      `id` int(11) unsigned NOT NULL AUTO_INCREMENT,
      `engine` varchar(20) NOT NULL DEFAULT '',
      `keyword` varchar(100) NOT NULL DEFAULT '',
      `baseurl` varchar(255) NOT NULL DEFAULT '',
      `realurl` varchar(255) NOT NULL DEFAULT '',
      `urlparam` varchar(255) NOT NULL DEFAULT '',
      `webtitle` varchar(255) NOT NULL DEFAULT '',
      `create_time` int(10) NOT NULL,
      PRIMARY KEY (`id`)
    ) ENGINE=MyISAM AUTO_INCREMENT=395 DEFAULT CHARSET=utf8;

4.0版本更新说明

  • 系统核心优化,去除和重新封装部分核心类;
  • 配置文件优化(更改部分参数的命名以及新增了参数);
  • 更新搜索引擎类(比如,module/baidu/baidu.py)的实现写法更加方便与简洁;
  • python2和python3的兼容性优化(目前在本机MAC系统上分别使用py2和py3都可以正常运行,windows没有环境去测试,如有问题欢迎反馈)
  • 同时支持保存为本地txt和写入远程Mysql数据库;
  • 修复相关异常报错问题;

3.0版本更新说明

  • 系统重构,工程目录结构更清晰
  • 同时兼容Python2和python3
  • 搜索引擎模块化集成
  • 代码质量与运行效率优化
  • 支持不同搜索引擎多进程同时采集
  • 去重复功能优化
  • 过滤功能优化,要过滤的域名添加到txt配置文件即可,同时支持过滤标题关键词
  • tld包换成了tldextract(截取url的顶级域名用的)
  • 修复360搜索(so)的采集BUG
  • 中文采集BUG修复,保存的文件名也同样为中文,方便识别。

2.0版本更新说明

  • 2.0版,内置的搜索引擎增加。包括百度,搜狗,360搜索(新增加支持的搜索引擎比较容易);

1.0版本更新说明

  • 1.0版,初始版本,满足个人基本需要;

More Repositories

1

msray

Msray,是一款采用GoLang开发的搜索引擎采集|url采集|域名采集|网址采集工具 。可指定关键词自动化的并发从多个搜索引擎获取结果,并对搜索结果进行处理与存储![中秋特供]
91
star
2

machine-code

GO语言实现的跨平台机器码(硬件信息)获取程序,包括PlatformUUID、SerialNumber、MAC网卡信息、CPUID信息等。同时支持windows、Linux、mac等系统!
Go
53
star
3

superl-githack

.git信息泄露漏洞利用工具。可以打包完整的各个版本项目开发代码,历程。与GitHack不同的是,这个下载的更完整无错!
Python
43
star
4

BTC-Automated-trading

各大比特币/山寨币的自动交易开源系统的收集整理
18
star
5

superl-wallet

一款基于区块链技术的数字代币钱包工具(比特币相关),目前已经实现基础功能。本项目生成的私钥/公钥/地址等信息,经验证无错误。生成的私钥也可以导入到主流钱包软件中,信息一致!可生成公钥(原始公钥,压缩公钥,未压缩公钥)、私钥(16进制格式私钥,WIF未压缩格式私钥,WIF压缩格式私钥)。可通过私钥计算出公钥,可通过公钥计算出地址,验证地址有效性等等
Go
12
star
6

tld-list

全球顶级域名后缀库,超全
10
star
7

Web-Security-Monitored

跨平台服务器文件安全监控软件,支持短信预警
Java
10
star
8

supurl

新一代的关键词URL采集系统,采用GO语言开发。可突破搜索引擎的反爬虫机制!根据用户录入的关键词,批量自动化使用主流多个搜索引擎进行采集与统一处理。支持精准采集与大规模深度采集(自动采集相关词),日采集可轻松千万条不重复域名。
10
star
9

codelines

一款基于GO语言,支持跨平台,可以统计项目代码行数的软件(命令行软件,无界面),支持多种自定义过滤。 主要用于代码安全审计服务相关的费用评估。
Go
8
star
10

exchangeData-collect

各种数字货币交易所数据采集
Python
7
star
11

penetrationtest

Python 渗透测试
Python
6
star
12

nstscan-agent

忘忧草安全团队研发的分布式信息探测与脆弱性扫描系统(nstscan)的agent端。
Java
6
star
13

go-prerender

一款基于golang实现的前端动态渲染转静态化页面的服务软件(预渲染),兼具反向代理功能;支持VUE/JS等页面的静态化存储,可自定义配置静态缓存过期时间。 无需改动原页面代码,没有复杂的配置,无需运行环境并且跨平台,上手即用,不懂技术的小白也可以使用;
Go
4
star
14

CBitmexKline

多线程bitmex交易所k线采集,支持自定义k线类型(1分,1小时,1天),线程数,合约名称,采集数量,开始时间,结束时间,延迟时间以及保存类型等
Java
3
star
15

serverc-scripts

各种常用环境安装脚本与说明文档
Shell
3
star
16

PressureTest

JAVA写的性能与压力测试工具。目前支持MYSQL的不同连接方式的并发测试!
Java
2
star
17

rabbitmq-consumer

rabbitMQ消息生产与消费实例。支持多线程多队列同时消费,每个队列同时也支持自定义并发消费线程!采用Qos实现公平分发。
Java
2
star
18

web-autologin

基于GO语言与chromedp库实现网站自动登录,以长期定时任务,实现三维家网站自动登录获取cookie,并更新到mysql数据库为例。
Go
2
star
19

msray-plus

Meta Search Ray,简称msray。 是一款特色并行式元搜索引擎的扩展加强版。 可根据使用者提供的关键词,自动从多个搜索引擎获取搜索结果数据, 并且支持自动去重复、多种定制化功能如过滤、导出、推送等,便于数据分析与处理。并同时具有系统自带引擎,可无限抓取互联网公开内容。 软件采用的GO语言开发,并提供本地WEB管理后台对软件进行相关操作,无需使用复杂的命令,功能强大且简单易上手! 主要运用于全网域名/网址/IP信息检索、指定关键词批量数据采集、网络推广分析、内容源收集,以及为各种大数据分析等提供数据支撑。
2
star
20

go-hydra

Library for checking connections and brute-force logins and passwords
Go
1
star
21

mini_upload

忘忧草文件上传服务端系统
Java
1
star
22

demo

各种常用开发的demo集合[忘忧草团队]
Java
1
star
23

superl.org

使用Issues功能打造的个人博客的评论仓库
1
star
24

sec-sqlproxy

一款用于mysql数据库安全防御的软件[数据库中间件][mysql代理]!主要侧重点是安全防御。主要功能包括数据库安全监控、sql审计、sql执行阻断的等功能。
1
star
25

nproxy

NProxy是一款使用goland开发的代理池管理系统。具有易部署、易使用、高效、调用灵活等特点!核心代码来源主要抽取自团队的Msray-Plus项目。系统对外开放所有功能API接口,同时支持RPC与HTTP方式调用,可轻松无侵入的对接到自己的项目中使用!
Go
1
star
26

pdfconvert

一款支持PDF文件自动按页转图片的程序。支持自定义图片质量(清晰度),支持智能切割(一页切割成两张图片)等功能!
1
star
27

vue-element-nepenthes

一款基于vue-element-admin修改而成的后台前端解决方案。完美支持完全由服务端控制的动态菜单。也可与renrenfast服务端整合。动态路由菜单+角色管理+管理员+动态参数等
Vue
1
star
28

solc-bin

solc的众多版本的编译器合集!主要用于解决truffle网络问题,无法下载编译器的问题,以及为VScode定制版本编译提供支持。
JavaScript
1
star
29

super-l.github.io

CSS
1
star