• Stars
    star
    7,809
  • Rank 4,858 (Top 0.1 %)
  • Language
    Python
  • License
    GNU General Publi...
  • Created over 4 years ago
  • Updated 3 months ago

Reviews

There are no reviews yet. Be the first to send feedback to the community and the maintainers!

Repository Details

INFO-SPIDER 是一个集众多数据源于一身的爬虫工具箱🧰,旨在安全快捷的帮助用户拿回自己的数据,工具代码开源,流程透明。支持数据源包括GitHub、QQ邮箱、网易邮箱、阿里邮箱、新浪邮箱、Hotmail邮箱、Outlook邮箱、京东、淘宝、支付宝、中国移动、中国联通、中国电信、知乎、哔哩哔哩、网易云音乐、QQ好友、QQ群、生成朋友圈相册、浏览器浏览历史、12306、博客园、CSDN博客、开源中国博客、简书。

InfoSpider logo


GitHub stars UW2eVx.png UW2eVx.png UW2eVx.png GitHub repo size GitHub repo size

一个神奇的工具箱,拿回你的个人信息。

👉使用说明 | 视频演示 | English | 🥰获取最新维护版本🥰

开发者回忆录

点击展开👉 开发者回忆录

场景一

小明一如往常打开 Chrome 浏览器逛着论坛,贴吧,一不小心点开了网页上的广告,跳转到了京东商城,下意识去关闭窗口时发现 (OS:咦?京东怎么知道我最近心心念念的宝贝呢?刚好我正需要呢!),既然打开了那就看看商品详情吧 (OS:哎哟不错哦),那就下单试试吧!

场景二

小白听着网易云音乐的每日推荐歌单无法自拔 (OS:哇!怎么播放列表里都是我喜欢的音乐风格?网易云音乐太棒了吧!深得我心啊!黑胶会员必须来一个!),逛着知乎里的“如何优雅的XXX?”,“XXX是怎样一种体验?”,“如何评价XXX?” (OS:咦?这个问题就是我刚好想问的,原来早已有人提问!什么???还有几千条回答!!进去逛逛看!

场景三

小达上班时不忘充实自己,逛着各大技术论坛博客园、CSDN、开源中国、简书、掘金等等,发现首页的内容推荐太棒了(OS:这些技术博文太棒了,不用找就出来了),再打开自己的博客主页发现不知不觉地自己也坚持写博文也有三年了,自己的技术栈也越来越丰富(OS:怎么博客后台都不提供一个数据分析系统呢?我想看看我这几年来的发文数量,发文时间,想知道哪些博文比较热门,想看看我在哪些技术上花费的时间更多,想看看我过去的创作高峰期时在晚上呢?还是凌晨?我希望系统能给我更多指引数据让我更好的创作!

看到以上几个场景你可能会感叹科技在进步,技术在发展,极大地改善了我们的生活方式。

但当你深入思考,你浏览的每个网站,注册的每个网站,他们都记录着你的信息你的足迹。

细思恐极的背后是自己的个人数据被赤裸裸的暴露在互联网上并且被众多的公司利用用户数据获得巨额利益,如对用户的数据收集分析后进行定制的广告推送,收取高额广告费。但作为数据的生产者却没能分享属于自己的数据收益。

想法

如果有一个这样的工具,它能帮你拿回你的个人信息,它能帮你把分散在各种站点的个人信息聚合起来,它能帮你分析你的个人数据并给你提供建议,它能帮你把个人数据可视化让你更清楚地了解自己。

你是否会需要这样的工具呢? 你是否会喜欢这样的工具呢?

基于以上,我着手开发了 INFO-SPIDER 👇👇👇

What is INFO-SPIDER

INFO-SPIDER 是一个集众多数据源于一身的爬虫工具箱,旨在安全快捷的帮助用户拿回自己的数据,工具代码开源,流程透明。并提供数据分析功能,基于用户数据生成图表文件,使得用户更直观、深入了解自己的信息。 目前支持数据源包括GitHub、QQ邮箱、网易邮箱、阿里邮箱、新浪邮箱、Hotmail邮箱、Outlook邮箱、京东、淘宝、支付宝、中国移动、中国联通、中国电信、知乎、哔哩哔哩、网易云音乐、QQ好友、QQ群、生成朋友圈相册、浏览器浏览历史、12306、博客园、CSDN博客、开源中国博客、简书。

详细使用说明参照使用说明文档视频教程

你可以在 Gitter 与我们一起交流学习

Features

  • 安全可靠:本项目为开源项目,代码简洁,所有源码可见,本地运行,安全可靠。
  • 使用简单:提供 GUI 界面,只需点击所需获取的数据源并根据提示操作即可。
  • 结构清晰:本项目的所有数据源相互独立,可移植性高,所有爬虫脚本在项目的 Spiders 文件下
  • 数据源丰富:本项目目前支持多达24+个数据源,持续更新。
  • 数据格式统一:爬取的所有数据都将存储为json格式,方便后期数据分析。
  • 个人数据丰富:本项目将尽可能多地为你爬取个人数据,后期数据处理可根据需要删减。
  • 数据分析:本项目提供个人数据的可视化分析,目前仅部分支持。
  • 文档丰富:本项目包含完整全面的使用说明文档视频教程

Screenshot

screenshot.png

QuickStart

依赖安装

  1. 安装python3和Chrome浏览器

  2. 安装与Chrome浏览器相同版本的驱动

  3. 安装依赖库 pip install -r requirements.txt

如果您在这一步操作遇到问题,可以获取免安装版InfoSpider

工具运行

  1. 进入 tools 目录

  2. 运行 python3 main.py

  3. 在打开的窗口点击数据源按钮, 根据提示选择数据保存路径

  4. 弹出的浏览器输入用户密码后会自动开始爬取数据, 爬取完成浏览器会自动关闭.

  5. 在对应的目录下可以查看下载下来的数据(xxx.json), 数据分析图表(xxx.html)

购买服务

限量发售中...去看看

  1. InfoSpider 最新维护版本
  2. 更全面的个人数据分析
  3. 免去安装程序的所有依赖环境,便捷,适合小白
  4. 已打包好的程序,双击即可运行程序
  5. 手把手教你如何打包 InfoSpider
  6. 开发者一对一技术支持
  7. 购买后即可免费获得即将发布的全新2.0版本

wechat
购买链接

数据源

  • GitHub
  • QQ邮箱
  • 网易邮箱
  • 阿里邮箱
  • 新浪邮箱
  • Hotmail邮箱
  • Outlook邮箱
  • 京东
  • 淘宝
  • 支付宝
  • 中国移动
  • 中国联通
  • 中国电信
  • 知乎
  • 哔哩哔哩
  • 网易云音乐
  • QQ好友(cjh0613)
  • QQ群(cjh0613)
  • 生成朋友圈相册
  • 浏览器浏览历史
  • 12306
  • 博客园
  • CSDN博客
  • 开源中国博客
  • 简书

数据分析

  • 博客园
  • CSDN博客
  • 开源中国博客
  • 简书

计划

  • 提供web界面操作,适应多平台
  • 对爬取的个人数据进行统计分析
  • 融合机器学习技术、自然语言处理技术等对数据深入分析
  • 把分析结果绘制图表直观展示
  • 添加更多数据源...

Visitors

Developers want to say

  1. 该项目解决了个人数据分散在各种各样的公司之间,经常形成数据孤岛,多维数据无法融合的痛点。
  2. 作者认为该项目的最大潜力在于能把多维数据进行融合并对个人数据进行分析,是个人数据效益最大化。
  3. 该项目使用爬虫手段获取数据,所以程序存在时效问题(需要持续维护,根据网站的更新做出修改)。
  4. 该项目的结构清晰,所有数据源相互独立,可移植性高,所有爬虫脚本在项目的Spiders文件下,可移植到你的程序中。
  5. 目前该项目v1.0版本仅在Windows平台上测试,Python 3.7,未适配多平台。
  6. 计划在v2.0版本对项目进行重构,提供web端操作与数据可视化,以适配多平台。
  7. 本项目INFO-SPIDER代码已开源,欢迎star支持。

Contributors

Sponsors

Thank you to JetBrains, who provide Open Source License for PyCharm!

本仓库将不定期更新,如需获取最新维护版本,请购买支持!谢谢!

Changelog

点击展开 Changelog
  • 2020年7月10日

    1. 更新GUI布局
    2. 添加GitHub、QQ好友、QQ群数据源
  • 2020年7月12日

    1. 修复QQ邮箱、网易邮箱、阿里邮箱、新浪邮箱、Hotmail、Outlook数据源
    2. 添加生成朋友圈相册功能
  • 2020年7月14日

    1. 修复京东、淘宝、支付宝、12306数据源
    2. 添加Chrome浏览记录功能
  • 2020年7月17日

    1. 修复中国移动、中国联通数据源
    2. 添加知乎、哔哩哔哩、网易云音乐数据源
  • 2020年7月19日

    1. 添加博客园、CSDN、开源中国、简书数据源
    2. 编写使用说明文档
    3. 录制使用视频教程
  • 2020年7月30日

    1. 添加博客园数据分析功能
    2. 使用pyechart绘制图表并生成html文件保存在数据目录下
  • 2020年8月18日

    1. 修复部分bug
    2. 更新README.md
  • 2020年9月12日

    1. 更换项目Logo
  • 2020年10月20日

    1. 更新所有爬虫脚本
    2. 制作Python-embed版InfoSpider
    3. 更新logo
  • 2020年11月29日

    1. 更新爬虫脚本

License

GPL-3.0

Star History

Star History Chart

More Repositories

1

AwsomeSpider

Python爬虫小项目汇总(招聘信息/电影信息/股票信息/天气信息/贴吧信息/图片信息/视频信息..)
Python
86
star
2

GeekMovie

GeekMovie 极客影院是一个免费的在线观影系统,本网站内容使用Python爬虫技术收集于互联网上公开资源,提供最优质的web界面服务,但不提供也不参与影片档案录制、下载、上传、储存。本站资源永久免费共享、无需安装任何插件、免注册登入、无隐藏恶意(挖矿)软体,欢迎影迷安心浏览观赏。
JavaScript
66
star
3

Python_OpenCV

基于Python OpenCV的图像算法原理及代码示例|平移变换、尺度变换、旋转变换、仿射变换 求反、动态范围压缩、阶梯量化、阈值分割 加法、平均法消除噪声、减法 直方图均衡化、直方图规定化 线性平滑滤波器、线性锐化滤波器、非线性平滑滤波器、非线性锐化滤波器 傅里叶变换和反变换 理想滤波器、巴特沃斯滤波器,指数滤波器 高频增强滤波器、高频提升滤波器 带通带阻滤波器、同态滤波器 均值滤波器、排序统计滤波器 DPCM编码、余弦变换编码、小波变换编码 Sobel算子、Roberts算子、拉普拉斯算子、Canny算子、Prewitt算子、高斯拉普拉斯算子...
Python
64
star
4

free_vip_video

全网各平台VIP视频免费解析,免费看
HTML
45
star
5

GradeProtection

网络安全等级保护2.0极简教程
HTML
30
star
6

ImageAI_docs

ImageAI 中文文档
HTML
25
star
7

MoviesAnalyse

豆瓣Top500电影爬虫&分析可视化
HTML
24
star
8

Wendy

Wendy是一个Python GUI框架,它允许用HTML、CSS、Javascript、Ajax建立一个应用程序的GUI。 它使用CEF嵌入WxPython窗体,通过Flask启动本地服务器来响应GUI请求。 项目GUI默认使用了流行的AdminLTE模板,您可以随意替换任意模板,替换规则请参考Flask。 您可以随时下载本项目并修改成为你的应用程序。 本项目还提供了打包程序脚本使得程序更方便分发。
JavaScript
14
star
9

JobFlowAI

🚀 JobFlow AI - AI-powered career guidance and job recommendation platform with multiple data sources.
JavaScript
5
star
10

dengbao

信息安全等级测评
Shell
4
star
11

hacktoolhub

本站并不以盈利为目的,所有黑客软件均来源于互联网分享,社群只是做了简单的搬运
HTML
4
star
12

Hacking-Write-ups

A collection of awesome write-ups from topics ranging from CVE, vulnHub, CTFs, Hack the box walkthroughs, real-life encounters and everything which can help other enthusiasts learn.
4
star
13

Insighter

系统洞察快速检测工具
Shell
3
star
14

zabbix_monitoring_devices

zabbix 监控各种服务、设备教程
Shell
2
star
15

JobFlowAI-3

🚀JobFlow AI - AI-powered career guidance and job recommendation platform with multiple data sources.
Astro
2
star
16

AppleIdChecker

本项目提供一个用于检验 Apple ID 有效性的网页接口。它使用 Flask 框架来构建一个网页应用程序,允许用户验证他们的凭证、检查验证结果、管理用户账户(管理员用)以及导出结果。
HTML
2
star
17

doubanBookSpider

该项目是一个基于Scrapy框架的豆瓣图书爬虫,用于爬取豆瓣图书TOP250的图书信息以及这些图书的评论信息。
Python
2
star
18

Docker-build-container

Docker-build-container as Dockfile
Shell
1
star
19

Django-demo1

Django-demo1 实现登录和注册功能
Python
1
star
20

kangvcar

1
star