• Stars
    star
    715
  • Rank 63,327 (Top 2 %)
  • Language
    Python
  • License
    MIT License
  • Created almost 7 years ago
  • Updated over 2 years ago

Reviews

There are no reviews yet. Be the first to send feedback to the community and the maintainers!

Repository Details

综合了同义词词林扩展版与知网(Hownet)的词语相似度计算方法,词汇覆盖更多、结果更准确。

词语相似度高级版

综合词林扩展版与Hownet的相似度计算策略和评价指标,来自文献1,代码为本人实现。采用融合计算方式,扩大了词汇覆盖面,也改进了计算结果的合理性。

具体算法选择

  • 词林扩展版
    (1)最初采用了【词林相似度计算:实现了3种算法】 中的2016版代码(文献1),比另2种算法效果更好。
    (2)后来发现作者团队发表了更新、更优的算法——文献2。于是实现了其中算法,经验证论文结果属实。
    (3)再后来发现又有了新的算法——文献3。然后按论文思想,原封不动实现效果略逊色于论文数据。但经过调整策略,最终效果优于论文本身。

  • 知网Hownet
    (1)开源的代码大多均参考刘群的论文,但效果与主观感受有差距。目前选用:【知网相似度计算】。本人修改了其中读取词表遗漏的bug,改善了代码的风格,提高了可读性。
    (2)知网计算相似度已有最新论文——文献4,性能有较大提升(在改进Hownet上达到0.84),但算法代码有待实现,希望得到网友贡献。

参考文献

【1】《基于知网与词林的词语语义相似度计算》朱新华,马润聪,孙柳,陈宏朝,2016年7月《中文信息学报》
【2】《基于路径与深度的同义词词林词语相似度计算》陈宏朝, 李飞, 朱新华,马润聪. 2016年9月《中文信息学报》
【3】《基于信息内容的词林词语相似度计算》彭琦, 朱新华, 陈意山,等.2018年2月《计算机应用研究》
【4】《基于多重继承与信息内容的知网词语相似度计算》张波,陈宏朝,朱新华等.2017年10月 《计算机应用研究》

不同语义库上算法对比:

相似度方法 所用语义词典 词汇量 皮尔逊系数
田久乐 赵蔚(2010) 同义词词林 77456 0.53
吕立辉等(2013) 同义词词林 77456 0.74
陈宏朝等(2016-9) 同义词词林 77456 0.856
yaleimeng(2018) 改进的词林 77490 0.917
相似度方法 所用语义词典 词汇量 皮尔逊系数
刘群、李素建(2002) HowNet(知网) 53335 0.699
Seco(2004)+Lin方法 HowNet(知网) 53335 0.738
李峰、李芳(2007) HowNet(知网) 53335 0.793
张波等(2017) 改进HowNet 53335 0.84
相似度方法 所用语义词典 词汇量 皮尔逊系数
yaleimeng(2018) 词林+HowNet 85777 0.885

注:
1 上面的皮尔逊系数均在MC30数据集上测得。
2 本混合方法计算可调节词林与hownet计算结果的权重,表格中成绩可能为最大值(两词均被同时收录)。

如需了解预训练词向量计算的中文词语相关度,可参见:中文近义词工具包Synonyms

原创不易,欢迎打赏、捐赠:

More Repositories

1

TextClassify_with_BERT

使用BERT模型做文本分类;面向工业用途
Python
216
star
2

NER_corpus_chinese

NER(命名实体识别)中文语料,一站式获取
126
star
3

py3Aiml_Chinese

官方py3AIML基于英文,现为其增加中文支持,并将代码注释翻译为中文。实测可正常解析带中文pattern和template的aiml文件。
Python
92
star
4

Free_proxy_pool

对免费代理IP网站进行爬取,收集汇总为自己的代理池。关键是验证代理的有效性、匿名性、去重复
Python
75
star
5

crawler-wordCloud_of_hotWeibo

新浪热门微博爬虫,外加词云分析。
Python
19
star
6

spider_for_Books

图书爬虫,已囊括当当、京东……目前字典内容包括了书名、作者、出版社、出版年月、详情描述、评论数量、好评率等。
Python
17
star
7

spider_For_SecondHand_car

有3个爬虫,分别是是瓜子二手车、人人车、优信二手车。
Python
10
star
8

QR_code_aardio

用aardio重写二维码识别与生成工具。只支持Windows平台。软件体积小。
10
star
9

QR_Generator_and_Recognizer

Qt 写的二维码生成和识别程序。使用了libqrencode和QZxing库。
C
3
star
10

Scrapy_Projects

使用Scrapy框架的爬虫项目。根据网站不同,按文件夹组织
Python
3
star
11

Image_Encryptor_and_Decryptor

基于Opencv实现的像素置乱加密解密程序。
C++
3
star
12

ChatScript_Client

ChatScript python客户端。集成了中文分词,对win和liunx服务器采用了不同的字符编码方式
Python
3
star
13

paddlespeech_forme

paddlespeech局部定制版,流式ASR与TTS可接受和输出8k音频
2
star
14

spider_for_XiaoZhu

针对小猪短租的城市站点,爬取前300条房源信息(主要是房子描述、地址、价位,房屋图片链接,房东网名、照片、性别)。
Python
2
star
15

FAQ_Alice

整合了FAQ的ALICE,使用flask做了个本地服务器
Python
1
star
16

spider_For_MMpics

批量下载美女网站图片的爬虫。范围可以自己修改源码设定
Python
1
star