• Stars
    star
    484
  • Rank 90,377 (Top 2 %)
  • Language
    C#
  • License
    Other
  • Created over 11 years ago
  • Updated over 2 years ago

Reviews

There are no reviews yet. Be the first to send feedback to the community and the maintainers!

Repository Details

Html网页正文提取

Html2Article

.NET平台下,一个高效的从Html中提取正文的工具。
正文提取采用了基于文本密度的提取算法,支持从压缩的Html文档中提取正文,每个页面平均提取时间为30ms,正确率在95%以上。
Html2Article

Html2Article特色

  • 标签无关,提取正文不依赖标签;
  • 支持从压缩的html文档中提取正文内容;
  • 支持带标签输出原始正文;
  • 核心算法简洁高效,平均提取时间在30ms左右。

让你的项目支持Html正文提取

  • PM> Install-Package Html2Article
  • 引入命名空间using StanSoft;
  • 添加如下代码:
// html为你要提取的html文本
string html = "<html>....</html>";
// article对象包含Title(标题),PublishDate(发布日期),Content(正文)和ContentWithTags(带标签正文)四个属性
Article article = Html2Article.GetArticle(html);

Html2Article类

  • Html2Article类是提取正文的核心类
  • Html2Article配置说明
    • AppendMode:是否使用正文追加模式,默认为false,设置为true会将更多符合条件的文本添加到正文。
    • Depth:分析的深度,默认为5,对于行空隙较大的页面可增加此值。
    • LimitCount:字符限定数,当分析的文本数量达到限定数则认为进入正文内容,默认为180个字符。
    • GetArticle(string html):从Html文本中获取Article。

License

Apache 2.0

More Repositories

1

be-a-professional-programmer

成为专业程序员路上用到的各种优秀资料、神器及框架
9,470
star
2

GoldenPassport

A native implementation of Google Authenticator for Mac based on Swift
Objective-C
381
star
3

ScrapingSpider

业余时间开发的,支持多线程,支持关键字过滤,支持正文内容智能识别的爬虫。
C#
78
star
4

luoo-down

luoo.net music downloader
JavaScript
40
star
5

IKAnalyzer.NET

IKAnalyzer中文分词器在.NET平台下的实现
C#
24
star
6

jvm-exercise

JVM related exercises
Scala
11
star
7

AutoClick

鼠标连点器
C++
11
star
8

RollCallSystem

大学时期开发的点名系统,给需要的人,基于WPF
JavaScript
9
star
9

homebridge-mi-gateway

XiaoMi Gateway plugin for HomeBridge.
JavaScript
7
star
10

AirSound

利用无线网络,将你的手机变成无线耳机。
C++
6
star
11

leanote-theme-indigo

A leanote theme exported from hexo-theme-indigo
CSS
4
star
12

node-html2article

The nodejs version of Html2Article.
JavaScript
4
star
13

ReadingShare

读书笔记,技术分享
JavaScript
3
star
14

mastering-apache-spark-cn

《Mastering Apache Spark》中文版
3
star
15

wiiu-screenshot

A web server based on openresty to save a screenshot of a Nintendo WiiU.
HTML
3
star
16

marked-blog

A wicked fast blog system based on OpenResty and Lor framework.
Vue
2
star
17

magnet_search

A magnet search app based on flutter
Dart
2
star
18

resume

My resume in LaTeX
TeX
2
star
19

FileDateModifier

文件时间修改器,Windows工具
Visual Basic
2
star
20

vishnu

A p2p port forward service.
Go
1
star
21

about-me

About me
Vue
1
star
22

tools

生活工作中积累的各种辅助工具
Python
1
star
23

CleanFlat

A personal blogging theme for Ghost
CSS
1
star
24

luban

鲁班:产品原型托管服务
Rust
1
star
25

marked-writer

A markdown blog writer based on node-webkit
CSS
1
star
26

Classmates

大学期间做的同学录,有知乎的朋友需要源码就放出来了
C#
1
star
27

chiaki

Free and Open Source PlayStation Remote Play Client
C
1
star
28

minark

A simple distributed computing framework
Scala
1
star
29

hexoblog

基于hexo构建的个人博客,用于存放博客源文件。
CSS
1
star
30

database-readings

Readings in Database Systems
1
star
31

term-chat

a tiny console chat system based on nodejs
JavaScript
1
star