• Stars
    star
    166
  • Rank 226,483 (Top 5 %)
  • Language
    Python
  • Created over 5 years ago
  • Updated about 5 years ago

Reviews

There are no reviews yet. Be the first to send feedback to the community and the maintainers!

Repository Details

基于卷积神经网络的语音识别声学模型的研究

ASR_Syllable

=======================基于卷积神经网络的语音识别声学模型的研究========================

此项目是对自己研一与研二上之间对于DCNN-CTC学习总结,提出了MCNN-CTC以及Densenet-CTC声学模型,最终实验结果如下所示:

1) Thchs30_TrainingResults

Thchs30训练以及微调训练曲线

2) Thchs30_Results

Thchs30实验结果

3) Stcmds_Results

Stcmds实验结果

声学模型介绍

1) DCNN-CTC声学模型介绍

该模型主要是在speech_model-05上进行修改,上述模型主要使用DCNN-CTC构建语音识别声学模型,STcmds 数据集也是仿照该模型进行修改,最后实验结果如上图所示;

2) MCNN-CTC声学模型介绍

该模型主要是在speech_model_10 脚本上进行实验,最终实验结果可在上图2)所示结果,最终MCNN-CTC总体实验结果相较于DCNN-CTC较好;

3) DenseNet-CTC声学模型介绍

上述模型主要是在 DenseNet上进行实验,最终实验在Thchs30数据集结果可以达到接近30%左右的CER,具体实验可以自己付尝试一下;

4) Attention-CTC声学模型

此模型主要在DCNN-CTC基础上,在全连接层进行注意力操作,最终结果相较于其他结果相较于DCNN-CTC可能有提升,具体可以参看speech_model_06脚本;主要算法实验如下所示:
NN(Attention)-CTC:
# dense1 = Dense(units=512, activation='relu', use_bias=True, kernel_initializer='he_normal')(reshape)
# attention_prob = Dense(units=512, activation='softmax', name='attention_vec')(dense1)
# attention_mul = multiply([dense1, attention_prob])
#
# dense1 = BatchNormalization(epsilon=0.0002)(attention_mul)
# dense1 = Dropout(0.3)(dense1)

迁移学习

Retraining(重新训练)主要对初始模型进行进一步微调,可进一步提升初始模型的准确率,具体训练脚本可参看 train_modelSpeech 脚本,本文主要针对全部网路层进行微调,实验结果相较于初始模型可进一步提升,具体实验结果可参看图1)

论文引用

W Zhang, M H Zhai, Z L Huang, et al. Towards End-to-End Speech Recognition with Deep Multipath Convolutional Neural Networks[C]. https://doi.org/10.1007/978-3-030-27529-7_29

参考项目连接

个人博客 包含自己近期的学习总结
参考链接
ASR_WORD以字为建模单元构建语音识别声学模型

More Repositories

1

ASR_Theory

语音识别理论、论文和PPT
570
star
2

ASR_WORD

采用端到端方法构建声学模型,以字为建模单元,采用DCNN-CTC网络结构。
Python
72
star
3

kaggle-cats-and-dogs

采用深度学习方法进行图像识别,数据集为kaggle数据集中的猫与狗数据集。
Python
49
star
4

video-action-recognition

视频动作识别,基于C3D网络构建
Python
29
star
5

image-recognition

采用深度学习方法进行刀具识别。
Python
23
star
6

ASR_Phone

以音素建模构建NN-CTC声学模型
Python
15
star
7

agriculture_recognition

AI挑战赛,农作物识别,已经做好数据处理,模型训练等部分,由于时间原因交由实验室师弟进行优化。
Python
9
star
8

cloud-recognition

采用深度学习方法,进行6分类云彩识别,识别率为73.17%,比赛用
Python
7
star
9

NMT_Keras

Using seq2seq to convert Spanish to English
Python
5
star
10

Pytorch_Learning

采用Pytorch深度学习框架,使用MNIST数据集进行实验
Python
2
star
11

stcmds-kaldi

nn-hmm for stcmds
Shell
2
star
12

ASR_Transformer

A Pytorch implementation of Speech Transformer, an End-to-End Automatic Speech Recognition with Transformer Network, Which directly converts acoustic features to character sequence using a signal neural network.
2
star
13

face-recognition

采用深度学习Triplet网络进行人脸识别,参照师兄留下的脚本进行一步一步分析。
1
star
14

keras-self-attention

Attention mechanism for processing sequential data that considers the context for each timestamp.
Python
1
star
15

bert

TensorFlow code and pre-trained models for BERT
Python
1
star
16

SparseSelfAttention

Sparse Attention Mechanism, accepted in KSC 2019
Python
1
star
17

Voiceprint_Recognition

Just for DACAS 2019 and for studying AI
Python
1
star
18

asr

中文语音识别系统,在西安电子科技大学某位大神的脚本上进行改进模型。
1
star