• Stars
    star
    363
  • Rank 117,374 (Top 3 %)
  • Language
    Python
  • Created almost 6 years ago
  • Updated about 4 years ago

Reviews

There are no reviews yet. Be the first to send feedback to the community and the maintainers!

Repository Details

问题句子相似度计算,即给定客服里用户描述的两句话,用算法来判断是否表示了相同的语义。

sentence-similarity

问题句子相似度计算,即给定客服里用户描述的两句话,用算法来判断是否表示了相同的语义。

句子相似度判定

今年和去年前后相继出现了多个关于句子相似度判定的比赛,即得定两个句子,用算法判断是否表示了相同的语义或者意思。 其中第4、5这个2个比赛数据集格式比较像,请见 sent_match,,2、3 的数据集格式比较像,本仓库基于2、3数据集做实验

下面是比赛的列表:

The goal of this competition is to predict which of the provided pairs of questions contain two questions with the same meaning.

数据集未经过脱敏处理,用真实的英文单词标识

问题相似度计算,即给定客服里用户描述的两句话,用算法来判断是否表示了相同的语义。

数据集未经过脱敏处理 示例:

  1. “花呗如何还款” --“花呗怎么还款”:同义问句
  2. “花呗如何还款” -- “我怎么还我的花被呢”:同义问句
  3. “花呗分期后逾期了如何还款”-- “花呗分期后逾期了哪里还款”:非同义问句 对于例子a,比较简单的方法就可以判定同义;对于例子b,包含了错别字、同义词、词序变换等问题,两个句子乍一看并不类似,想正确判断比较有挑战;对于例子c,两句> 话很类似,仅仅有一处细微的差别 “如何”和“哪里”,就导致语义不一致。"""

与基于Quora的的的语义等价判别相同,本次评测任务的主要目标是针对中文的真实客服语料,进行问句意图匹配。集给定两个语句,要求判定两者意图是否相同或者相近。所有语料来自原始的银行领域智能客服日志,并经过了筛选和人工的意图匹配标注。

数据集经过脱敏处理 输入:一般几天能通过审核\ t一般审核通过要多久 输出:1

本次评测任务的主要目标是针对中文的真实患者健康咨询语料,进行问句意图匹配。给定两个语句,要求判定两者意图是否相同或者相近。所有语料来自互联网上患者真实> 的问题,并经过了筛选和人工的意图匹配标注。平安云将为报名的队伍提供GPU的训练环境。

数据集经过脱敏处理,问题由数字标示 训练集包含20000条左右标注好的数据(经过脱敏处理,包含标点符号),供参赛人员进行训练和测试。 测试集包含10000条左右无label的数据(经过脱敏处理,包含标点> 符号)。选手需要对测试集数据的label进行预测并提交。测试集数据作为AB榜的评测依据。

智能客服聊天机器人场景中,待客户提出问题后,往往需要先计算客户提出问题与知识库问题的相似度,进而定位最相似问题,再对问题给出答案。本次比赛的题目便是问 > 题相似度算法设计。

数据集经过脱敏处理,问题由数字标示 为保护用户隐私并保证比赛的公平公正,所有原始文本信息都被编码成单字ID序列和词语ID序列。单字包含单个汉字、英文字母、标点及空格等;词语包含切词后的中> 文词语、英文单词、标点及空格等。单字ID和词语ID存在于两个不同的命名空间,即词语中的单字词或者标点,和单字中的相同字符及相同标点不一定有同一个ID。其> > 中,单字序列以L开头,词语序列以W开头。

Siamese Network

MaLSTM’s architecture — Similar color means the weights are shared between the same-colored elements

  • 词向量是基于字符级别的,在我印象里一般是字符级的效果比较好
  • LSTM训练出来两个问题的语义向量,然后再给相似度函数MaLSTM similarity function
def exponent_neg_manhattan_distance(sent_left, sent_right):
    '''基于曼哈顿空间距离计算两个字符串语义空间表示相似度计算'''
    return K.exp(-K.sum(K.abs(sent_left - sent_right), axis=1, keepdims=True))

我们仔细看下这个函数的输出是0-1,也就是我们预测概率

  • 训练结果:

在ccks任务上:acc: 0.8372 - val_loss: 0.4316 - val_acc: 0.8047

在atec任务上:loss: 0.3302 - acc: 0.8570 - val_loss: 0.5244 - val_acc: 0.7702

更多资料

  1. How to predict Quora Question Pairs using Siamese Manhattan LSTM
  2. nlp中文本相似度计算问题
  3. 语义相似度计算各种算法实现汇总
  4. 距离度量以及python实现(一)
  5. 从Kaggle赛题: Quora Question Pairs 看文本相似性/相关性
  6. SiameseSentenceSimilarity
  7. QuoraDQBaseline

More Repositories

1

Chinese-LangChain

中文langchain项目|小必应,Q.Talk,强聊,QiangTalk
Python
2,675
star
2

InstructGLM

ChatGLM-6B 指令学习|指令数据|Instruct
Python
654
star
3

NLP-Interview-Notes

📚 专门为自然语言处理(NLP)面试准备的学习笔记与资料
Jupyter Notebook
341
star
4

how-to-train-tokenizer

怎么训练一个LLM分词器
Python
129
star
5

char-rnn-writer

基于Char RNN实现的“作家”应用,可以写诗也可以生成名字,看起来还👌
Python
83
star
6

GoGPT

GoGPT:基于Llama/Llama 2训练的中英文增强大模型|Chinese-Llama2
Python
78
star
7

text-cluster

🍡 文本聚类 k-means算法及实战
Python
50
star
8

ner-english

💻 英文命名实体识别(NER)的研究
Python
49
star
9

quincy-python

📖 学习python过程中的知识积累
Jupyter Notebook
46
star
10

pyspider-project

Python爬虫项目集合
Jupyter Notebook
41
star
11

daguan

2018达观杯文本智能处理挑战赛:基于ML、DL实现文本分类
Python
38
star
12

20newsgroups-text-classification

对20 newsgroups 数据集 进行文本分类
Python
27
star
13

quincy-python-v2

python学习过程中的积累
Jupyter Notebook
24
star
14

Text-Classification-Application

🎒 基于CNN实现的文本分类应用
Python
24
star
15

transformers-tutorial

Jupyter Notebook
21
star
16

Product-Entity-Recognition

商品标题实体识别
Jupyter Notebook
21
star
17

baidu-search

vue实现百度下拉搜索
JavaScript
20
star
18

Data-Finance-Cup

2019厦门国际银行“数创金融杯”数据建模大赛 复赛第六
Jupyter Notebook
19
star
19

amp-pytorch

Pytorch自动混合精度训练模板
Python
17
star
20

seq2seq-nmt

😺 基于Keras实现seq2seq,进行英文到中文的翻译
Python
17
star
21

competion-zoo

比赛中的通用方法和模板
Jupyter Notebook
16
star
22

KDD2024-WhoIsWho-Top3

KDD2024-WhoIsWho-Top3
Python
14
star
23

Ashare-Industry-Trends

公开新闻预测A股行业板块动向
Python
11
star
24

tree2retriever

Recursive Abstractive Processing for Tree-Organized Retrieval
Python
11
star
25

Food-Safety-Review

O2O商铺食品安全相关评论发现
Python
11
star
26

triple_extraction

基于依存句法与语义角色标注的三元组抽取
Python
10
star
27

GoGPT-Instruction

GoGPT中文指令数据集构造
Python
10
star
28

TensorFlow-MNIST-WEBAPP

使用tensorflow实现手写字体分类以及web应用
JavaScript
10
star
29

textclassify

文本分类:bow(词袋特征)、tfidf、word2vec、sklearn
Python
8
star
30

exploratory-data-analysis

🎅 Exploratory Data Analysis 探索性数据分析
Jupyter Notebook
8
star
31

message-board

vue2.0+php实现交互的留言墙
JavaScript
7
star
32

Cityproperty-Rent-Forecast

城市-房产租金预测
Jupyter Notebook
7
star
33

shence-cup

🐇 “神策杯”关键词提取
Python
7
star
34

LLaMA-Instruct-Learning

Python
6
star
35

text-summarization-tensorflow

文本摘要
Python
6
star
36

bond-prospectus

债券募集说明书
Python
5
star
37

game-knowledge-graph

🎮 关于游戏的知识图谱
Python
5
star
38

yanqiangmiffy

5
star
39

keras_bert_ner

bert实现命名实体识别
Python
5
star
40

huggingface-dl

Command-line program to download models from huggingface.co
Python
4
star
41

llm-finetune

开源大模型微调
Python
4
star
42

Chinese-NER-GOLD

如何把中文实体识别做好
3
star
43

rnn-by-numpy

使用numpy实现rnn和语言模型
Python
3
star
44

daguan-information-extraction

“达观杯”文本智能信息抽取挑战赛
Python
3
star
45

Loan-Default-Prediction

零基础入门金融风控-贷款违约预测
Jupyter Notebook
3
star
46

keyword-finder

关键词提取
Python
3
star
47

tibetan-mnist

基于TibetanMNIST图像分类与图像匹配
Python
3
star
48

quincy-keras

keras学习资料/教程
Jupyter Notebook
3
star
49

poteman

2
star
50

Nezha-Pytorch

Python
2
star
51

sent_match

Python
2
star
52

ctrip14-learning

携程出行产品未来14个月销量预测
2
star
53

rucweibo

《应用系统开发实践》----微博系统RucWeibo
Java
2
star
54

bank-marketing

线上 0.94098 49/1551
Jupyter Notebook
1
star
55

char-rnn-pytorch

🌊 基于pytorch实现char rnn,生成英文名字
Python
1
star
56

spider-projects

爬虫项目
Jupyter Notebook
1
star
57

CS224n-NLP-DL

斯坦福cs224n:自然语言处理与深度学习
1
star
58

dog_vs_cat

猫狗大战
Python
1
star
59

Noun-Phrase-Extraction

Jupyter Notebook
1
star
60

loan-prediction-iii

贷款预测根据用户的详细信息来预测贷款是否发放
Jupyter Notebook
1
star
61

text-sentiment-classification

文本情感分类
Jupyter Notebook
1
star
62

personal-credit-evaluation

个人房产信用评估模型
Jupyter Notebook
1
star
63

GoDocs

针对RAG系统问答的文档解析工具库
Jupyter Notebook
1
star
64

GovDoc-Generator

基于大模型GoGPT微调的公文生成器
1
star
65

Weibo-Analysis

Python
1
star