• Stars
    star
    122
  • Rank 290,235 (Top 6 %)
  • Language
    Python
  • Created about 7 years ago
  • Updated about 6 years ago

Reviews

There are no reviews yet. Be the first to send feedback to the community and the maintainers!

Repository Details

Train Wikidata with word2vec for word embedding tasks

chatoper banner

wikidata

wikidata.org

Download

STORE_PATH=data
DATA_URL=http://download.wikipedia.com/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2

cd $STORE_PATH
wget $DATA_URL

Extract articles

WikiExtractor.py -b 5000M \
    -o data/zhwiki-latest-pages-articles.extracted \
    data/zhwiki-latest-pages-articles.xml.bz2

繁体转简体

opencc -i data/zhwiki-latest-pages-articles.extracted/AA/wiki_00  \
    -o data/zhwiki-latest-pages-articles.0620.chs \
    -c t2s.json

Download t2s.json.

到此为止,已经完成了大部分繁简转换工作。

其他情况处理

  1. 维基百科使用的繁简转换方法是以词表为准,外加人工修正。人工修正之后的文字是这种格式,多数是为了解决各地术语名称不同的问题:

他的主要成就包括Emacs及後來的GNU Emacs,GNU C 編譯器及-{zh-hant:GNU 除錯器;zh-hans:GDB 调试器}-。

对付这种可以简单的使用正则表达式来解决。一般简体中文的限定词是zh-hans或zh-cn。

  1. 由于Wikipedia Extractor抽取正文时,会将有特殊标记的外文直接剔除,最后形成类似这样的正文:

西方语言中“数学”(;)一词源自于古希腊语的()

虽然上面这句话是读不通的,但鉴于这种句子对我要处理的问题影响不大,就暂且忽略了。最后再将「」『』这些符号替换成引号,顺便删除空括号。

python2 fix_special_symbols.py data/zhwiki-latest-pages-articles.0620.chs

程序执行结束,输出: data/zhwiki-latest-pages-articles.0620.chs.normalized

浏览文件

head data/zhwiki-latest-pages-articles.0620.chs.normalized

分词

  • 执行脚本
export PYTHONIOENCODING="UTF-8"
python3 wordseg.py > data/zhwiki-latest-pages-articles.0620.chs.normalized.wordseg

word2vec

word2vec官方的实现。

./word2vec_c_format_train.sh

Usage of word2vec model

  • word2vec cli
distance, compute-accuracy, word-analogy
  • python
python3 word2vec_gensim_similarity.py

TF-IDF

  • plain code

train

python3 tfidf_plain.py

After running, dump words, weights and idf into pickle file.

现在会有稀疏矩阵的问题,解决方案是使用限定的词汇表。

python3 tfidf_sklearn.py

关联项目

Synonyms

中文近义词库,Synonyms使用wikidata-corpus训练的词向量生成近义词表。

references

http://licstar.net/archives/328 http://licstar.net/archives/tag/wikipedia-extractor

More Repositories

1

Synonyms

🌿 中文近义词:聊天机器人,智能问答工具包
Python
5,016
star
2

cskefu

🌲 春松客服,开源,免费,智能客服系统,机器人客服
JavaScript
1,994
star
3

insuranceqa-corpus-zh

🚁 保险行业语料库,聊天机器人
Python
1,012
star
4

efaqa-corpus-zh

❤️Emotional First Aid Dataset, 心理咨询问答、聊天机器人语料库
Python
607
star
5

clause

🏇 聊天机器人,自然语言理解,语义理解
C++
401
star
6

chatbot.catalog.customer-service

💊 智能客服、聊天机器人的应用算法
272
star
7

chatbot-samples

🤖 聊天机器人示例,定制聊天机器人,聊天机器人语料导入导出
JavaScript
123
star
8

text-dependency-parser

🏄 依存关系分析,NLP,自然语言处理
Python
86
star
9

node-synonyms

🎡 中文近义词工具包,聊天机器人
JavaScript
68
star
10

chatopera.feishu

通过 Feishu 开放平台和 Chatopera 机器人平台上线智能对话机器人服务, 聊天机器人,飞书,lark
JavaScript
44
star
11

deep-qa

Question and Answering Model with TensorFlow
Python
32
star
12

xfy-node-getstarted

语音识别: A Tutorial for xfyun.cn, 在Node.js上使用科大讯飞听写接口.
JavaScript
25
star
13

clause-quick-start

⚓ 聊天机器人,语义理解,快速开始
Python
23
star
14

node-party

BJ NodeJS Club
CSS
20
star
15

chatopera-sample-java

🚀 Java SDK, 聊天机器人
Java
20
star
16

docs

⛄ Chatopera 文档中心,重新定义聊天机器人
JavaScript
18
star
17

chop

Chinese Tokenizer module for Python
Python
17
star
18

efaqa-bot-demo

❤️ 聊天机器人,心理问答,心理咨询 API
JavaScript
14
star
19

node-word2vec

Word2vec Model Reader for Node.js Client
C
13
star
20

efaqa-corpus-raw

Emotional First Aid Raw Dataset, 心理咨询问答原始语料库
Python
12
star
21

chatopera-go-sdk

聊天机器人,Go开发工具包,Chatopera 机器人平台
Go
11
star
22

chatopera.samples.archived

🙌 聊天机器人模板
JavaScript
11
star
23

text-cfg-parser

自然语言处理之CFG句法分析
Python
10
star
24

clause-sdk-python

Python SDK for Clause, 语义理解服务
Python
9
star
25

cskefu.djt

😉 春松客服大讲堂,面向开发者、软件工程师及运维人员的在线课程,基于春松客服定制客服系统
8
star
26

chatopera-gzh-sample

在微信公众号中使用 Chatopera 聊天机器人
JavaScript
7
star
27

chatopera-sample-node

Node.js SDK, 聊天机器人
JavaScript
7
star
28

chatopera-php-sdk

聊天机器人,PHP SDK,Chatopera 机器人平台
PHP
5
star
29

webchat

🐧聊天机器人,Chatbot,连接到 Chatopera 机器人平台, chat via browser.
JavaScript
5
star
30

cpp-kick-starter

Sophisticated C++ Project Skeleton
CMake
4
star
31

bless-samples

Node.js packaging utility to hide your source code.
JavaScript
4
star
32

chatopera-java-sdk

聊天机器人,Java 开发工具包,Chatopera 机器人平台
Java
4
star
33

node-activemq

在Node.js应用中集成ActiveMQ服务
JavaScript
3
star
34

node-logstash-send

Fast send to Logstash
JavaScript
3
star
35

chatopera-py-sdk

聊天机器人,Python SDK,Chatopera 机器人平台
Python
3
star
36

compose4j

Onion Model in Java
Java
3
star
37

clause-sdk-node

Node.js Client Module for Chatopera Clause
JavaScript
3
star
38

tensorflow-getstarted

Get started with TensorFlow
Python
3
star
39

cmake-get-started

Get started with CMake
Shell
2
star
40

cskefu-wxapp

🌲春松客服小程序对接页面
JavaScript
2
star
41

chatopera.fmc

🐝 boot your bots in Facebook Messenger with Chatopera in minutes / 脸书自动应答机器人
JavaScript
2
star
42

datemath-js

datemath parser
JavaScript
1
star
43

microloom

JavaScript
1
star
44

clause-sdk-java

Java Sample Project for Chatopera Clause
Java
1
star
45

store-docs

开发者的收银工具
JavaScript
1
star