• Stars
    star
    852
  • Rank 53,079 (Top 2 %)
  • Language
    Python
  • License
    Apache License 2.0
  • Created over 3 years ago
  • Updated about 1 year ago

Reviews

There are no reviews yet. Be the first to send feedback to the community and the maintainers!

Repository Details

一站式构建多源、干净、个性化的阅读环境(Build a multi-source, clean and personalized reading environment in one stop.)

Liuli logo

Liuli

📖 一站式构建多源、干净、个性化的阅读环境

琉璃开净界,薜荔启禅关

特性

使用Liuli,你可以得到:

  • 配置化开发,自定义输入、处理、输出
  • 信息备份(支持跨源): Github, MongoDB
  • 机器学习赋能:验证码识别、广告分类、智能标签
  • 阅读源管控,构建知识管理平台
  • 官方案例技术支持

使用场景:

🍥 使用

教程[使用前必读]:

快速开始,请先确保安装Docker

mkdir liuli && cd liuli
# 数据库目录
mkdir mongodb_data
# 任务配置目录
mkdir liuli_config
wget -O liuli_config/default.json https://raw.githubusercontent.com/howie6879/liuli/main/liuli_config/default.json
# 配置 pro.env 具体查看 doc/02.环境变量.md
vim pro.env
# 下载 docker-compose
wget https://raw.githubusercontent.com/howie6879/liuli/main/docker-compose.yaml
# 启动
docker-compose up -d

代码安装使用过程如下:

# 确保有Python3.7+环境
git clone https://github.com/liuli-io/liuli.git --depth=1
cd liuli

# 创建基础环境
pipenv install --python={your_python3.7+_path} --dev  --skip-lock
# 配置.env 具体查看 doc/02.环境变量.md 启动调度
pipenv run dev_schedule

启动成功日志如下:

Loading .env environment variables...
[2021:12:23 23:08:35] INFO  Liuli Schedule started successfully :)
[2021:12:23 23:08:35] INFO  Liuli Schedule time: 00:00 06:00
[2021:12:23 23:09:36] INFO  Liuli playwright 匹配公众号 老胡的储物柜(howie_locker) 成功! 正在提取最新文章: 我的周刊(第018期)
[2021:12:23 23:09:39] INFO  Liuli 公众号文章持久化成功! 👉 老胡的储物柜
[2021:12:23 23:09:40] INFO  Liuli 🤗 微信公众号文章更新完毕(1/1)

推送效果如图:

🤔 实现

大概流程如下:

liuli_process

简单解释一下:

  • 采集器:监控各自关注的公众号、书籍或者博客源等自定义阅读源,以统一标准格式流入Liuli作为输入源;
  • 处理器:对目标内容进行自定义处理,如基于历史广告数据,利用机器学习实现一个广告分类器自动打标签,或者引入钩子函数在相关节点执行等;
  • 分发器:依靠接口层进行数据请求&响应,为使用者提供个性化配置,然后根据配置自动进行分发,将干净的文章流向微信、钉钉、TG、RSS客户端甚至自建网站;
  • 备份器:将处理后的文章进行备份,如持久化到数据库或者GitHub等。

这样做就实现了干净阅读环境的构建,衍生一下,基于获取的数据,可做的事情有很多,大家不妨发散一下思路。

开发进度看板:

  • v0.2.0: 实现基础功能,保证常规场景解决方案可应用
  • v0.3.0: 实现采集器自定义,用户所见即可采集

🤖 帮助

为了提升模型的识别准确率,我希望大家能尽力贡献一些广告样本,请看样本文件:.files/datasets/ads.csv,我设定格式如下:

title url is_process
广告文章标题 广告文章连接 0

字段说明:

  • title:文章标题
  • url:文章链接,如果微信文章想、请先验证是否失效
  • is_process:表示是否进行样本处理,默认填0即可

来个实例:

liuli_ads_csv_demo

一般广告会重复在多个公众号投放,填写的时候麻烦查一下是否存在此条记录,希望大家能一起合力贡献,亲,来个 PR 贡献你的力量吧!

👀 致谢

感谢以下开源项目:

  • Flask: web框架
  • Vue: 渐进式JavaScript框架
  • Ruia: 异步爬虫框架(自研自用)
  • playwright: 使用浏览器进行数据抓取

以上仅列出比较核心的开源依赖,更多第三方依赖请见Pipfile文件。

您任何PR都是对Liuli项目的大力支持,非常感谢以下开发者的贡献(排名不分先后):

👉 关于

欢迎一起交流(关注入群):

img

More Repositories

1

owllook

owllook-小说搜索引擎
Python
2,549
star
2

ruia

Async Python 3.6+ web scraping micro-framework based on asyncio
Python
1,730
star
3

mlhub123

机器学习&深度学习网站资源汇总(Machine Learning Resources)
852
star
4

weekly

老胡的信息技术周刊❤️记录我本周看到的有价值的信息,针对优秀项目、软件、教程资料、网站等。
Python
593
star
5

Sanic-For-Pythoneer

📚 一份sanic使用教程,开源小书
Python
387
star
6

magic_google

Google search results crawler, get google search results that you need
Python
368
star
7

NIYT

在你的终端看小说(Read the novel in your terminal) - NIYT
Go
154
star
8

examiner

操作系统通知中心监控(不论微信、钉钉、QQ,只要开启消息通知),可编写对应处理脚本
Python
143
star
9

owllook_api

owllook - 简洁优雅的小说API🎉
Go
130
star
10

ITBooks

Get itbooks from ebooks's website for free,such as allitebooks,digilibraries,etc
Python
106
star
11

owllook_gui

简洁优雅的小说监控工具🎉
Python
86
star
12

hproxy

hproxy - Asynchronous IP proxy pool, aims to make getting proxy as convenient as possible.(异步爬虫代理池)
Python
66
star
13

talospider

talospider - A simple,lightweight scraping micro-framework
Python
54
star
14

pylab

和Python相关的学习笔记:机器学习、算法、进阶书籍、文档,博客地址:https://www.howie6879.cn
Jupyter Notebook
51
star
15

getNews

互联网新闻推荐系统(myNews)--2016全国计算机设计大赛企业命题参赛作品
Python
44
star
16

w2b

将微信接收的文章自动解析同步到Bear
Python
40
star
17

k8s_note

k8s学习笔记
29
star
18

php-google

Google search results crawler, get google search results that you need - php
PHP
29
star
19

anan

安安 - 育儿医疗问答机器人
Python
24
star
20

book_swop

二手书籍转赠交换计划
21
star
21

sanic_annotation

sanic 源码注释 用于学习
Python
18
star
22

coolshell_qa

CoolShell 博客备份&基于 ChatGPT 的问答机器人
Python
17
star
23

instdd

Instagram Photos Download - Save Instagram photos and videos online
Python
15
star
24

mac-soft

记录我在使用 macOS 过程中使用&看到的软件项目
15
star
25

howie6879.github.io

努力就好
HTML
9
star
26

py_project_template

Python project template for you
Python
7
star
27

weeklyhub

汇聚优质精选技术周刊,为你提供高质量信息流
5
star
28

leaf

A CLI tool for hiding the application's icon in the Dock. (MacOS Dock栏软件图标隐藏终端工具)
Python
5
star
29

monkey

Search engine for programmers
Python
5
star
30

importData

将csv xls json等数据格式导入mysql
Python
4
star
31

expire

Expire aims to make using cache as convenient as possible.
Python
4
star
32

gpt123.ai-daily

老胡的 ChatGPT 日报信息流
Python
3
star
33

ml_note

我的机器学习笔记
Python
3
star
34

liuli_backup

Liuli 阅读环境文章留存
HTML
1
star
35

Mastering-Python

Mastering Python---阅读python相关书籍笔记
Jupyter Notebook
1
star
36

nand2tetris

✍️ 计算机系统要素-从零开始构建现代计算机
Scilab
1
star
37

howie6879

1
star
38

vim_config

vim
Vim Script
1
star