• Stars
    star
    207
  • Rank 189,769 (Top 4 %)
  • Language
    Python
  • License
    Apache License 2.0
  • Created about 3 years ago
  • Updated 12 months ago

Reviews

There are no reviews yet. Be the first to send feedback to the community and the maintainers!

Repository Details

The Pytorch implementation of sound classification supports EcapaTdnn, PANNS, TDNN, Res2Net, ResNetSE and other models, as well as a variety of preprocessing methods.

前言

本章我们来介绍如何使用Pytorch训练一个区分不同音频的分类模型,例如你有这样一个需求,需要根据不同的鸟叫声识别是什么种类的鸟,这时你就可以使用这个方法来实现你的需求了。

欢迎大家扫码入QQ群讨论,或者直接搜索QQ群号758170167,问题答案为博主Github的IDyeyupiaoling

使用准备

  • Anaconda 3
  • Python 3.8
  • Pytorch 1.13.1
  • Windows 10 or Ubuntu 18.04

项目特性

  1. 支持模型:EcapaTdnn、PANNS、TDNN、Res2Net、ResNetSE
  2. 支持池化层:AttentiveStatsPool(ASP)、SelfAttentivePooling(SAP)、TemporalStatisticsPooling(TSP)、TemporalAveragePooling( TAP)
  3. 支持预处理方法:MelSpectrogram、Spectrogram、MFCC

安装环境

  • 首先安装的是Pytorch的GPU版本,如果已经安装过了,请跳过。
conda install pytorch==1.13.1 torchvision==0.14.1 torchaudio==0.13.1 pytorch-cuda=11.6 -c pytorch -c nvidia
  • 安装macls库。

使用pip安装,命令如下:

python -m pip install macls -U -i https://pypi.tuna.tsinghua.edu.cn/simple

建议源码安装,源码安装能保证使用最新代码。

git clone https://github.com/yeyupiaoling/AudioClassification_Pytorch.git
cd AudioClassification_Pytorch/
python setup.py install

数据数据

生成数据列表,用于下一步的读取需要,audio_path为音频文件路径,用户需要提前把音频数据集存放在dataset/audio目录下,每个文件夹存放一个类别的音频数据,每条音频数据长度在3秒以上,如 dataset/audio/鸟叫声/······audio是数据列表存放的位置,生成的数据类别的格式为 音频路径\t音频对应的类别标签,音频路径和标签用制表符 \t分开。读者也可以根据自己存放数据的方式修改以下函数。

Urbansound8K 是目前应用较为广泛的用于自动城市环境声分类研究的公共数据集,包含10个分类:空调声、汽车鸣笛声、儿童玩耍声、狗叫声、钻孔声、引擎空转声、枪声、手提钻、警笛声和街道音乐声。数据集下载地址:https://zenodo.org/record/1203745/files/UrbanSound8K.tar.gz。以下是针对Urbansound8K生成数据列表的函数。如果读者想使用该数据集,请下载并解压到 dataset目录下,把生成数据列表代码改为以下代码。

执行create_data.py即可生成数据列表,里面提供了两种生成列表方式,第一种是自定义的数据,第二种是生成Urbansound8K的数据列表,具体看代码。

python create_data.py

生成的列表是长这样的,前面是音频的路径,后面是该音频对应的标签,从0开始,路径和标签之间用Tab隔开。

dataset/UrbanSound8K/audio/fold2/104817-4-0-2.wav	4
dataset/UrbanSound8K/audio/fold9/105029-7-2-5.wav	7
dataset/UrbanSound8K/audio/fold3/107228-5-0-0.wav	5
dataset/UrbanSound8K/audio/fold4/109711-3-2-4.wav	3

修改预处理方法

配置文件中默认使用的是MelSpectrogram预处理方法,如果要使用其他预处理方法,可以修改配置文件中的安装下面方式修改,具体的值可以根据自己情况修改。

  1. MelSpectrogram预处理方法如下:
preprocess_conf:
  # 音频预处理方法,支持:MelSpectrogram、Spectrogram、MFCC
  feature_method: 'MelSpectrogram'

# MelSpectrogram的参数,其他的预处理方法查看对应API设设置参数
feature_conf:
  sample_rate: 16000
  n_fft: 1024
  hop_length: 320
  win_length: 1024
  f_min: 50.0
  f_max: 14000.0
  n_mels: 64
  1. pectrogram'预处理方法如下:
preprocess_conf:
  # 音频预处理方法,支持:MelSpectrogram、Spectrogram、MFCC
  feature_method: 'Spectrogram'

# Spectrogram的参数,其他的预处理方法查看对应API设设置参数
feature_conf:
  n_fft: 1024
  hop_length: 320
  win_length: 1024
  1. MFCC预处理方法如下:
preprocess_conf:
  # 音频预处理方法,支持:MelSpectrogram、Spectrogram、MFCC
  feature_method: 'MFCC'

# MFCC的参数,其他的预处理方法查看对应API设设置参数
feature_conf:
  sample_rate: 16000
  n_fft: 1024
  hop_length: 320
  win_length: 1024
  f_min: 50.0
  f_max: 14000.0
  n_mels: 64
  n_mfcc: 40

训练

接着就可以开始训练模型了,创建 train.py。配置文件里面的参数一般不需要修改,但是这几个是需要根据自己实际的数据集进行调整的,首先最重要的就是分类大小dataset_conf.num_class,这个每个数据集的分类大小可能不一样,根据自己的实际情况设定。然后是dataset_conf.batch_size,如果是显存不够的话,可以减小这个参数。

# 单卡训练
CUDA_VISIBLE_DEVICES=0 python train.py
# 多卡训练
CUDA_VISIBLE_DEVICES=0,1 torchrun --standalone --nnodes=1 --nproc_per_node=2 train.py

评估

每轮训练结束可以执行评估,评估会出来输出准确率,还保存了混合矩阵图片,保存路径output/images/,如下。 混合矩阵

预测

在训练结束之后,我们得到了一个模型参数文件,我们使用这个模型预测音频。

python infer.py --audio_path=dataset/UrbanSound8K/audio/fold5/156634-5-2-5.wav

其他功能

  • 为了方便读取录制数据和制作数据集,这里提供了录音程序record_audio.py,这个用于录制音频,录制的音频采样率为16000,单通道,16bit。
python record_audio.py
  • infer_record.py这个程序是用来不断进行录音识别,我们可以大致理解为这个程序在实时录音识别。通过这个应该我们可以做一些比较有趣的事情,比如把麦克风放在小鸟经常来的地方,通过实时录音识别,一旦识别到有鸟叫的声音,如果你的数据集足够强大,有每种鸟叫的声音数据集,这样你还能准确识别是那种鸟叫。如果识别到目标鸟类,就启动程序,例如拍照等等。
python infer_record.py --record_seconds=3

打赏作者


打赏一块钱支持一下作者

打赏作者

More Repositories

1

PPASR

基于PaddlePaddle实现端到端中文语音识别,从入门到实战,超简单的入门案例,超实用的企业项目。支持当前最流行的DeepSpeech2、Conformer、Squeezeformer模型
Python
699
star
2

PaddlePaddle-DeepSpeech

基于PaddlePaddle实现的语音识别,中文语音识别。项目完善,识别效果好。支持Windows,Linux下训练和预测,支持Nvidia Jetson开发板预测。
Python
583
star
3

VoiceprintRecognition-Pytorch

This project uses a variety of advanced voiceprint recognition models such as EcapaTdnn, ResNetSE, ERes2Net, CAM++, etc. It is not excluded that more models will be supported in the future. At the same time, this project also supports MelSpectrogram, Spectrogram data preprocessing methods
Python
503
star
4

MASR

Pytorch实现的流式与非流式的自动语音识别框架,同时兼容在线和离线识别,目前支持Conformer、Squeezeformer、DeepSpeech2模型,支持多种数据增强方法。
Python
462
star
5

Whisper-Finetune

Fine-tune the Whisper speech recognition model to support training without timestamp data, training with timestamp data, and training without speech data. Accelerate inference and support Web deployment, Windows desktop deployment, and Android deployment
C
443
star
6

LearnPaddle

PaddlePaddle V2版本系列教程,博客专栏:
Python
359
star
7

VoiceprintRecognition-Tensorflow

使用Tensorflow实现声纹识别
Python
267
star
8

VoiceprintRecognition-PaddlePaddle

本项目使用了EcapaTdnn、ResNetSE、ERes2Net、CAM++等多种先进的声纹识别模型,同时本项目也支持了MelSpectrogram、Spectrogram、MFCC、Fbank等多种数据预处理方法
Python
163
star
9

LearnPaddle2

PaddlePaddle Fluid 版本系列教程,CSDN博客专栏:
Python
153
star
10

ClassificationForAndroid

在Android使用深度学习模型实现图像识别,本项目提供了多种使用方式,使用到的框架如下:Tensorflow Lite、Paddle Lite、MNN、TNN
C++
144
star
11

VoiceprintRecognition-Keras

基于Kersa实现的声纹识别模型
Python
103
star
12

PP-YOLOE

PaddlePaddle实现的目标检测模型PP-YOLOE
Python
99
star
13

Pytorch-MTCNN

基于Pytorch实现的MTCNN模型,人脸检测,人脸关键点检测。
Python
96
star
14

PunctuationModel

中文标点符号模型,可以给文本添加标点符号。
Python
88
star
15

Pytorch-MobileFaceNet

Pytorch实现的人脸识别明细MobileFaceNet模型,在预测使用MTCNN检测人脸,然后使用MobileFaceNet模型识别。
Python
83
star
16

FaceDataset

制作亚洲人脸数据集
Python
83
star
17

AudioClassification-Tensorflow

基于Tensorflow实现声音分类,博客地址:
Python
82
star
18

AudioClassification-PaddlePaddle

基于PaddlePaddle实现的音频分类,支持EcapaTdnn、PANNS、TDNN、Res2Net、ResNetSE等各种模型,还有多种预处理方法
Python
71
star
19

SpeechEmotionRecognition-Pytorch

基于Pytorch实现的语音情感识别
Python
54
star
20

PaddlePaddle-MobileFaceNets

PaddlePaddle实现的人脸识别模型MobileFaceNets,在预测的是使用MTCNN检测人脸,然后MobileFaceNets模型识别。
Python
53
star
21

PaddlePaddle-SSD

基于PaddlePaddle实现的SSD,包括MobileNetSSD,MobileNetV2SSD,VGGSSD,ResNetSSD
Python
53
star
22

Tensorflow-FaceRecognition

基于MTCNN和MobileFaceNet实现的人脸识别,提供三种预测方式,满足各种需求 。
Python
50
star
23

PaddlePaddle-CrowdNet

基于PaddlePaddle实现的人流密度识别模型CrowdNet
Python
42
star
24

FaceKeyPointsMask

人脸检测、口罩识别、关键检测
Java
37
star
25

SpeechEmotionRecognition-PaddlePaddle

语音感情识别
Python
26
star
26

PaddlePaddle-MTCNN

基于PaddlePaddle复现的MTCNN人脸检测模型
Python
24
star
27

PaddlePaddleCourse

《PaddlePaddle从入门到实战》源码
Python
22
star
28

ReinforcementLearning

强化学习教程
Python
22
star
29

PaddlePaddle-CRNN

基于PaddlePaddle2.0实现的CRNN模型,文字识别
Python
21
star
30

Age-Gender-MXNET

MXNET实现的年龄性别识别,训练了超大数据集得到的模型。
Python
19
star
31

ChangeHumanBackground

人物更换背景
Java
18
star
32

BookSource

《深度学习应用实战之PaddlePaddle》的源码
Python
18
star
33

Chinese-LLM-Chat

大语言模型微调的项目,包含了使用QLora微调ChatGLM和LLama
Python
16
star
34

CameraXApp

CameraX实现的相机
Kotlin
12
star
35

yeyupiaoling

8
star
36

Pytorch-PPO

基于Pytorch实现的PPO强化学习模型,支持训练各种游戏,如超级马里奥,雪人兄弟,魂斗罗等等。
Python
7
star
37

VITS-Pytorch

本项目是基于Pytorch的语音合成项目,使用的是VITS,VITS是一种语音合成方法,这种时端到端的模型使用起来非常简单,不需要文本对齐等太复杂的流程,直接一键训练和生成,大大降低了学习门槛。
Python
6
star
38

PaddlePaddle-Classification

PaddlePaddle实现的图像分类模型
Python
5
star
39

PaddlePaddle-OCR

基于PaddlePaddle实现的OCR,包括CRNN和Attention模型
Python
3
star
40

DetectionForAndroid

C++
3
star
41

VITS-PaddlePaddle

本项目是基于PaddlePaddle的语音合成项目,使用的是VITS,VITS是一种语音合成方法,这种时端到端的模型使用起来非常简单,不需要文本对齐等太复杂的流程,直接一键训练和生成,大大降低了学习门槛。
Python
3
star
42

NettySendPhoto

在Android中使用Netty互相发送图片和文字
Java
2
star
43

YeAudio

Python的音频工具
Python
2
star
44

yeyupiaoling.github.io

夜雨飘零的个人博客
HTML
1
star