• Stars
    star
    219
  • Rank 181,133 (Top 4 %)
  • Language
    Python
  • Created over 6 years ago
  • Updated over 1 year ago

Reviews

There are no reviews yet. Be the first to send feedback to the community and the maintainers!

Repository Details

今日头条中文新闻(文本)分类数据集

中文文本分类数据集

数据来源:

今日头条客户端

数据格式:

6552431613437805063_!_102_!_news_entertainment_!_谢娜为李浩菲澄清网络谣言,之后她的两个行为给自己加分_!_佟丽娅,网络谣言,快乐大本营,李浩菲,谢娜,观众们

每行为一条数据,以_!_分割的个字段,从前往后分别是 新闻ID,分类code(见下文),分类名称(见下文),新闻字符串(仅含标题),新闻关键词

分类code与名称:

100 民生 故事 news_story
101 文化 文化 news_culture
102 娱乐 娱乐 news_entertainment
103 体育 体育 news_sports
104 财经 财经 news_finance
106 房产 房产 news_house
107 汽车 汽车 news_car
108 教育 教育 news_edu 
109 科技 科技 news_tech
110 军事 军事 news_military
112 旅游 旅游 news_travel
113 国际 国际 news_world
114 证券 股票 stock
115 农业 三农 news_agriculture
116 电竞 游戏 news_game

数据规模:

共382688条,分布于15个分类中。

采集时间:

2018年05月

实验结果:

以0.7 0.15 0.15做分割。欢迎提交你使用本数据集的实验结果~

Test Loss:   0.57, Test Acc:  83.81%

                    precision    recall  f1-score   support

        news_story       0.66      0.75      0.70       848

      news_culture       0.57      0.83      0.68      1531

news_entertainment       0.86      0.86      0.86      8078

       news_sports       0.94      0.91      0.92      7338

      news_finance       0.59      0.67      0.63      1594

        news_house       0.84      0.89      0.87      1478

          news_car       0.92      0.90      0.91      6481

          news_edu       0.71      0.86      0.77      1425

         news_tech       0.85      0.84      0.85      6944

     news_military       0.90      0.78      0.84      6174

       news_travel       0.58      0.76      0.66      1287

        news_world       0.72      0.69      0.70      3823

             stock       0.00      0.00      0.00        53

  news_agriculture       0.80      0.88      0.84      1701

         news_game       0.92      0.87      0.89      6244

       avg / total       0.85      0.84      0.84     54999



以上Acc较低的原因:

1,数据不均衡,部分类目数据太少

2,部分分类之间本身模棱两可,例如故事、文化、旅行

详见text-class xxxx内代码

后续可以优化的地方:

1,更多的数据

2,更全的分类

因为分类不全,例如缺少美食等,导致实际使用时,分哪里都不对的情况出现。

3,更均衡的分类数据

4,引入正文

NLP chat group

Welcome

More Repositories

1

dgk_lost_conv

dgk_lost_conv 中文对白语料 chinese conversation corpus
Python
1,064
star
2

openwebmonitor

万能网页监控器,监控物价、订单、出货、外汇、折扣、彩票...无所不能
JavaScript
1,011
star
3

irreader

irreader 万能订阅阅读器,订阅任何网站。
HTML
517
star
4

toutiao-multilevel-text-classfication-dataset

今日头条中文新闻文本(多层)分类数据集
Python
360
star
5

awesome-chatbot-list

深度学习聊天机器人资源集合 Awesome chatbot resource list
290
star
6

tensorflow-captcha-practice

请无用于非法用途,请遵守相关法律法规。
Python
87
star
7

colorpad

好用的色彩搭配工具 Color Picker 设计师精选 配色方案
JavaScript
83
star
8

FriggaVision

Caffe DeepID implement with Webface dataset
C++
55
star
9

macnewfile

MacOS Finder new file plugin, supporting file templates 支持自定义的Finder新建文件插件
Swift
45
star
10

captcha-dataset

请勿用于非法用途,请遵守网络安全法。
39
star
11

stockpred

用RNN-LSTM方法预测A股走势
Python
36
star
12

bdtranslate

Baidu translation engine python wrapper 百度翻译python SDK API
Python
15
star
13

cppgl

C++ wrapper for modern OpenGL
C
11
star
14

simwar3

兵棋推演
C++
11
star
15

PolyWorldEditor

A low poly 3d modeling tool.
C#
9
star
16

freebuf

freebuf笔记
Python
9
star
17

AppTimer

APP用量统计,工作小时数统计,掌握全天/周/月工作状态
HTML
7
star
18

spidernest

爬虫之巢
CSS
3
star
19

fosslist

中文的可用的免费开源软件(Free and Open Source Software, FOSS)列表
3
star
20

chatbot-keras

seq2seq chatbot based on Keras
Lua
3
star
21

amlmtool

My ASR acoustic and language model training material preparing tools
Python
2
star
22

self-canceling

自发声体麦克风人声增强
Python
2
star
23

a.f.c-product-site

A.F.C's product site
HTML
2
star
24

label4ml

CSS
2
star
25

tts_corpus_pregen

将混乱的文本,拆分出30字左右的,一系列 句子,并 分词、注音,作为后面阶段 corpus 制造做准备。
Python
2
star
26

ShaderSum

C#
1
star
27

dgk-asr-server

Python
1
star
28

tts_corpus_gen

用在线语音合成来制作一些测试用的 asr corpus
HTML
1
star
29

lua2d

Lua 2d game engine(very early stage)
C
1
star
30

soundTextureGen

compute a sound's frequency spectrum as a image texture, which can be push to shader...
Python
1
star
31

fateleak.github.io

JavaScript
1
star
32

irreader-readmode-editor

irreader readmode rule editor 网空阅读器的阅读模式的规则编辑器
CSS
1
star
33

SecretCube

secret cube
C#
1
star
34

anytrack

a framework to track website update
Python
1
star
35

RUstFiles

common open files for me and you
Python
1
star
36

pylivechat

live chat server and client
HTML
1
star
37

unc_fe_demo

front end code segments
JavaScript
1
star
38

DEBUFF

互联网安全翻车现场报道 | 渗透测试菜市场 | 关注嘿客与画家
HTML
1
star
39

dogejump

the dogejump(dev code) game
C#
1
star
40

deepvalley

谷间电磁炮 iOS/game/unity 3d/shooting/FPS
C#
1
star
41

dianyingxia

目前最火的电影列表(百度,360),搜索直达多个资源(爱奇艺,优酷,时光网,格瓦拉,豆瓣,百度提供的提示)
HTML
1
star