• Stars
    star
    124
  • Rank 288,207 (Top 6 %)
  • Language
    Python
  • License
    GNU General Publi...
  • Created almost 7 years ago
  • Updated over 6 years ago

Reviews

There are no reviews yet. Be the first to send feedback to the community and the maintainers!

Repository Details

一只百度文库的爬虫 A spider of baiduwenku

bdwenku-spider

一只百度文库的爬虫 A spider of baiduwenku

支持txt, word, pdf, ppt类型资源的下载

分析资源所在页面的源码,获取请求资源的接口,用requests库请求资源,然后手动实现文本的拼接规则,最后把文本内容输出到脚本同级目录下的文件夹中

简书详细使用说明:http://www.jianshu.com/p/8c103a566bd9

  • 百度文库有一些需要下载券,才能下载的资料
  • 但其实文库是允许我们预览的,可是不允许我们复制内容
  • 我们只是需要里面的文字内容,对内容的样式没有什么要求

windows平台运行

doc.gif

下载器实现的功能:

1.按照输入的网址,自动判断文档类型,并将下载好的资源放在相应的文件夹中 自动分类.png 2. 将ppt类型的文档自动转换为图片,并按原本的顺序命名保存 image.png 3.pdf,word.txt类型的数据全部消除格式,以txt格式保存文本 image.png

实现效果

下载word与pdf.png

下载ppt.png

下载txt.png

下载器的数据来源

分析资源所在页面的源码,获取请求资源的接口,用requests库请求资源,然后手动实现文本的拼接规则,最后把文本内容输出到脚本同级目录下的文件夹中

word类型文档

word.png

ppt类型文档

ppt.png

txt文档

image.png

我把这个脚本编译成了exe文件,windows用户从下面的资源帖子里按文章名自取: http://www.jianshu.com/p/4f28e1ae08b1

More Repositories

1

ChromeAppHeroes

🌈谷粒-Chrome插件英雄榜, 为优秀的Chrome插件写一本中文说明书, 让Chrome插件英雄们造福人类~ ChromePluginHeroes, Write a Chinese manual for the excellent Chrome plugin, let the Chrome plugin heroes benefit the human~ 公众号「0加1」同步更新
JavaScript
21,821
star
2

ChineseBQB

🇨🇳 Chinese sticker pack,More joy / 表情包的博物馆, Github最有毒的仓库, 中国表情包大集合, 聚欢乐~
JavaScript
12,103
star
3

OnlineToolsBook

🍭在线工具秘籍,为在线工具写一本优质说明书,让在线工具造福人类~ Online tool cheats, write a quality manual for online tools, make online tools benefit humanity~
JavaScript
2,588
star
4

StarsAndClown

☀️Github星聚弃疗榜, 让吃瓜群众也能享受Github带来的乐趣~Github StarsAndClown, Let the people who eat me can enjoy the fun of Github~
Python
2,253
star
5

ins

🍭互联网从业者的灵感数据库,无广告,Github Actions自动检测网站访问速度
Python
2,192
star
6

pi

树莓派教程,树莓派防吃灰小分队,让树莓派不再吃灰~
Python
1,706
star
7

garss

Github Actions采集RSS, 打造无广告内容优质的头版头条超赞宝藏页
Python
1,143
star
8

WordPressXMLRPCTools

用Hexo的方式管理WordPress(使用Github Actions自动更新文章到WordPress)
Python
202
star
9

ProgrammingWithChrome

《用Chrome学编程(如何用Chrome优雅装B)》, 用Gif图展示Chrome的骚操作, 充分挖掘Chrome的编程潜力!《Programming with Chrome(How to Use Chrome elegantly install B)》, Show Chrome Sao operation with Gif, Fully tap the programming potential of Chrome!
HTML
170
star
10

SuperWeb

🍡发现新网站,发现新大陆 New web, New world
JavaScript
91
star
11

jikemiji

👌zhaoolee的Blog 《极客秘籍》
JavaScript
71
star
12

PythonGUIDemo

这可能是最好玩的python GUI入门实例!
Python
70
star
13

wxread

微信读书刷时长
Python
69
star
14

sport

一个练习深蹲的小工具
JavaScript
56
star
15

EasyTypora

简单上传Typora图片到自建服务器的工具
JavaScript
51
star
16

GBlog

zhaoolee基于github仓库的博客
JavaScript
32
star
17

find-pose

拍照片时如何摆Pose
Shell
32
star
18

FrontEndClubIsBook

前端娱乐圈是本书! The front end entertainment circle is the book!
CSS
32
star
19

bilibili-wallpaper

Bilibili壁纸站爬取
JavaScript
29
star
20

inspop

用英语经典语录原音学英语
JavaScript
26
star
21

md2AnkiHtml

将Markdown转换为Anki可用的Html
JavaScript
24
star
22

FullStackAnki

全栈工程师的Anki
23
star
23

ChatRoom

Python实现多人在线匿名聊天的小程序
23
star
24

transMd

一个自用可以实现内容出海的,使用OpenAI ChatGPT批量将中文Markdown翻译为英文的工具
Python
20
star
25

NicePy3Book

汇总一些超级棒的python3项目, 也是一本很好的python3学习资源
Python
16
star
26

replace_readme_md_image

将README.md中的图片替换为github地址的图片
JavaScript
14
star
27

PyToExe

将Python程序(.py)转换为Windows可执行文件(.exe)
Python
14
star
28

ptt_beauty_spider

ppt表特爬虫,相当于中文版网页facebook
JavaScript
12
star
29

zhaoolee

Github自定义展示页面
Python
11
star
30

gitbook-for-wordpress

求和! 李姐万岁! 这是一个GitBook布局,锤子便签配色风格的WordPress主题
PHP
11
star
31

yiyan_spider

一言的爬虫
HTML
11
star
32

pi-picgo

PicGo私有化图床插件
TypeScript
10
star
33

ppt-piece

PPT秘宝
CSS
9
star
34

algo-life-story-book

🔆《算法生活故事书》将LeetCode算法题目, 应用到日常生活的奇妙故事书。
JavaScript
9
star
35

get-most-frequent-technology-english-words-csv

将《程序员工作中常见的英语词汇》转换为csv,xlsx单文件,并导入摸鱼单词
Python
9
star
36

GraphBed

zhaoolee的笔记本兼图床
Python
8
star
37

ElectronAppBlog

🌈图文并茂的Electron应用博客连载
6
star
38

WxMdNotes

将markdown文本转换为锤子便签样式,粘贴到微信公众号的mdnice主题
6
star
39

LearnChromeProgram

用Chrome学编程
JavaScript
6
star
40

v2h

能够健康和幸福的方法 Way to health and happiness
CSS
6
star
41

cgf

Change gif frames调整gif图片的帧数
Python
5
star
42

zhaoolee.github.io

zhaoolee的主页
HTML
5
star
43

WunderSoftSkills

奇妙软件技能书
JavaScript
5
star
44

wordpress-sidebar

为WordPress网站提供类似GitBook的侧边目录
JavaScript
5
star
45

hades

Python
5
star
46

zhToEnName

将中文名图片转换为英文名
Python
5
star
47

Blog

zhaoolee's blog zhaoolee的博客
JavaScript
4
star
48

Improving-English-for-Programmers

Improving English for Programmers
4
star
49

think-blog

独立博主个人站长经验分享 https://bbs.v2fy.com/c/think-blog
4
star
50

pi-k8s-test

树莓派k8s测试程序
HTML
3
star
51

TuChong

这是一个图虫网的小爬虫/ A spider of TuChong
Python
3
star
52

wp_v2fy

以WordPressXMLRPCTools为模版建立的v2fy.com文章管理系统
Python
3
star
53

in

方圆灵感导航 Fangyuan Inspiration Navigation
JavaScript
2
star
54

v2fy.com

v2fy.com content
Python
2
star
55

v2fy.zhaoolee.com

backup v2fy.com
Python
1
star
56

WelcomeMrStark

Shell
1
star
57

it

金融金融相关的编程课
JavaScript
1
star
58

NewAvatar

在线换头像
Python
1
star
59

ProgrammerFixesComputer

程序员修电脑,一些编程之外的计算机相关技能
1
star
60

gp

Game photography 游戏摄影师修炼手册
1
star
61

zhunao

住脑!放开段子让我来!
JavaScript
1
star
62

backup_linux

使用Python将服务器数据全量备份到本地的工具
Python
1
star
63

md_v2fy

用WordPressXMLRPCTools管理v2fy.com这个WordPress站
1
star
64

DV

让数据可视化造福人类
1
star