zhaoolee/bdwenku-spider

Stars
124
Rank 288,207 (Top 6 %)
Language
Python
License
GNU General Publi...
Created almost 7 years ago
Updated over 6 years ago

zhaoolee/bdwenku-spider

zhaoolee

There are no reviews yet. Be the first to send feedback to the community and the maintainers!

一只百度文库的爬虫 A spider of baiduwenku

bdwenku-spider

一只百度文库的爬虫 A spider of baiduwenku

支持txt, word, pdf, ppt类型资源的下载

分析资源所在页面的源码,获取请求资源的接口,用requests库请求资源,然后手动实现文本的拼接规则,最后把文本内容输出到脚本同级目录下的文件夹中

简书详细使用说明:http://www.jianshu.com/p/8c103a566bd9

百度文库有一些需要下载券,才能下载的资料
但其实文库是允许我们预览的,可是不允许我们复制内容
我们只是需要里面的文字内容,对内容的样式没有什么要求

windows平台运行

下载器实现的功能:

1.按照输入的网址,自动判断文档类型,并将下载好的资源放在相应的文件夹中 2. 将ppt类型的文档自动转换为图片,并按原本的顺序命名保存 3.pdf,word.txt类型的数据全部消除格式,以txt格式保存文本

实现效果

下载器的数据来源

分析资源所在页面的源码,获取请求资源的接口,用requests库请求资源,然后手动实现文本的拼接规则,最后把文本内容输出到脚本同级目录下的文件夹中

word类型文档

ppt类型文档

txt文档

我把这个脚本编译成了exe文件,windows用户从下面的资源帖子里按文章名自取: http://www.jianshu.com/p/4f28e1ae08b1

ChromeAppHeroes

🌈谷粒-Chrome插件英雄榜, 为优秀的Chrome插件写一本中文说明书, 让Chrome插件英雄们造福人类~ ChromePluginHeroes, Write a Chinese manual for the excellent Chrome plugin, let the Chrome plugin heroes benefit the human~ 公众号「0加1」同步更新

ChineseBQB

🇨🇳 Chinese sticker pack,More joy / 表情包的博物馆, Github最有毒的仓库, 中国表情包大集合, 聚欢乐~

OnlineToolsBook

🍭在线工具秘籍,为在线工具写一本优质说明书,让在线工具造福人类~ Online tool cheats, write a quality manual for online tools, make online tools benefit humanity~

StarsAndClown

☀️Github星聚弃疗榜, 让吃瓜群众也能享受Github带来的乐趣~Github StarsAndClown, Let the people who eat me can enjoy the fun of Github~

ins

🍭互联网从业者的灵感数据库，无广告，Github Actions自动检测网站访问速度

pi

树莓派教程，树莓派防吃灰小分队，让树莓派不再吃灰~

garss

Github Actions采集RSS, 打造无广告内容优质的头版头条超赞宝藏页

WordPressXMLRPCTools

用Hexo的方式管理WordPress(使用Github Actions自动更新文章到WordPress)

ProgrammingWithChrome

《用Chrome学编程(如何用Chrome优雅装B)》, 用Gif图展示Chrome的骚操作, 充分挖掘Chrome的编程潜力!《Programming with Chrome(How to Use Chrome elegantly install B)》, Show Chrome Sao operation with Gif, Fully tap the programming potential of Chrome!

SuperWeb

🍡发现新网站，发现新大陆 New web, New world

jikemiji

👌zhaoolee的Blog 《极客秘籍》

PythonGUIDemo

这可能是最好玩的python GUI入门实例!

wxread

微信读书刷时长

sport

一个练习深蹲的小工具

EasyTypora

简单上传Typora图片到自建服务器的工具

GBlog

zhaoolee基于github仓库的博客

find-pose

拍照片时如何摆Pose

FrontEndClubIsBook

前端娱乐圈是本书! The front end entertainment circle is the book!

bilibili-wallpaper

Bilibili壁纸站爬取

inspop

用英语经典语录原音学英语

md2AnkiHtml

将Markdown转换为Anki可用的Html

FullStackAnki

全栈工程师的Anki

ChatRoom

Python实现多人在线匿名聊天的小程序

transMd

一个自用可以实现内容出海的，使用OpenAI ChatGPT批量将中文Markdown翻译为英文的工具

NicePy3Book

汇总一些超级棒的python3项目, 也是一本很好的python3学习资源

replace_readme_md_image

将README.md中的图片替换为github地址的图片

PyToExe

将Python程序(.py)转换为Windows可执行文件(.exe)

ptt_beauty_spider

ppt表特爬虫,相当于中文版网页facebook

zhaoolee

Github自定义展示页面

gitbook-for-wordpress

求和! 李姐万岁! 这是一个GitBook布局，锤子便签配色风格的WordPress主题

yiyan_spider

一言的爬虫

pi-picgo

PicGo私有化图床插件

ppt-piece

algo-life-story-book

🔆《算法生活故事书》将LeetCode算法题目, 应用到日常生活的奇妙故事书。

get-most-frequent-technology-english-words-csv

将《程序员工作中常见的英语词汇》转换为csv，xlsx单文件，并导入摸鱼单词

GraphBed

zhaoolee的笔记本兼图床

ElectronAppBlog

🌈图文并茂的Electron应用博客连载

WxMdNotes

将markdown文本转换为锤子便签样式，粘贴到微信公众号的mdnice主题

LearnChromeProgram

用Chrome学编程

v2h

能够健康和幸福的方法 Way to health and happiness

cgf

Change gif frames调整gif图片的帧数

zhaoolee.github.io

zhaoolee的主页

WunderSoftSkills

奇妙软件技能书

wordpress-sidebar

为WordPress网站提供类似GitBook的侧边目录

hades

zhToEnName

将中文名图片转换为英文名

Blog

zhaoolee's blog zhaoolee的博客

Improving-English-for-Programmers

Improving English for Programmers

think-blog

独立博主个人站长经验分享 https://bbs.v2fy.com/c/think-blog

pi-k8s-test

树莓派k8s测试程序

TuChong

这是一个图虫网的小爬虫/ A spider of TuChong

wp_v2fy

以WordPressXMLRPCTools为模版建立的v2fy.com文章管理系统

in

方圆灵感导航 Fangyuan Inspiration Navigation

v2fy.com

v2fy.com content

v2fy.zhaoolee.com

backup v2fy.com

WelcomeMrStark

it

金融金融相关的编程课

NewAvatar

在线换头像

ProgrammerFixesComputer

程序员修电脑，一些编程之外的计算机相关技能

gp

Game photography 游戏摄影师修炼手册

zhunao

住脑!放开段子让我来!

backup_linux

使用Python将服务器数据全量备份到本地的工具

md_v2fy

用WordPressXMLRPCTools管理v2fy.com这个WordPress站

DV

让数据可视化造福人类