保姆级kaldi语音识别(2)Linux系统Ubuntu20.04下开源语音识别工具kaldi配置
保姆级Linux系统Ubuntu20.04下开源语音识别工具kaldi配置
- 前言
- 一. kaldi准备--虚拟机准备
- 二. kaldi配置库安装
-
- 2.1 常用工具库安装
- 2.2 kaldi源码下载
- 2.3 检测依赖库安装
- 三. kaldi例程实验
-
- 3.1 编译tools
- 3.2 编译src
- 3.3 跑yesno例子来验证
- 四. 小结
前言
Kaldi是当前最流行的开源的语音识别工具包,旨在提供灵活且可扩展的组件,包括多种语音信号处理,语音识别,声纹识别和深度神经网络。Kaldi的代码主要用C++编写,在此之上使用bash 和python脚本做了一些工具。目前,主要由语音大佬 Daniel Povey 带领的团队在github上进行开发和维护。
好消息是:2019年10月,Daniel博士正式加入小米公司,担任小米集团语音首席科学家,主要工作就是带领团队开发新一代Kaldi。下面是大佬的弟子,以及大佬来华之后的一些新闻视频,大家可以了解一下。
Kaldi团队日常都会做些什么?在Dan下做事或着和Dan合作做事,都是个怎样的体验?
Kaldi之父:新一代子项目布局基本完成,打造语音识别框架基石
语音识别大神Daniel Povey在小米开发新一代Kaldi
话不多说,开干!
一. kaldi准备–虚拟机准备
第一步打开虚拟机(我的Ubuntu是搭载在虚拟机上的,关于Windows下如何搭建虚拟机环境安装Ubuntu可以查看我的专栏文章:win7下配置虚拟机-安装Ubuntu20.4)
第二步登录Ubuntu,点击用户名,输入密码
第三步进入终端(右键选择“在终端打开”点击进入)
第四步 输入:
cd /
进入根目录
二. kaldi配置库安装
2.1 常用工具库安装
sudo apt-get updatesudo apt-get upgradesudo apt-get install gitsudo apt-get install bcsudo apt-get install g++sudo apt-get install zlib1g-dev make automake autoconf bzip2 libtool subversionsudo apt-get install libatlas3-base
2.2 kaldi源码下载
第一步下载kaldi,目前kaldi最新版本的代码都是在github(早期的老版本是在svn)
sudo git clone https://github.com/kaldi-asr/kaldi.gitcd kaldi/tools
2.3 检测依赖库安装
用kaldi自带的脚本check_dependencies.sh来检测是否安装完所有必须的依赖工具
extras/check_dependencies.sh
缺什么就安装什么
再检查一遍
根据提示,安装mkl库(这个库很关键)
再检查一遍
配置库全部安装完毕!例程走起
三. kaldi例程实验
3.1 编译tools
依赖安装成功,说明编译所需的工具和环境都配置好了,接下来就可以编译tools。
sudo make -j 8
报错,网上搜了一下应该是openfst没安装好
直接进入openfst文件夹进行配置安装(注意不是进入openfst文件夹)
cd openfst-1.7.2/
运行配置文件configure,再make 一遍
sudo ./configure
回到tools目录(cd …),再make一遍openfst
sudo make openfst
安装完毕,编译tools
sudo make -j 4
编译结束
3.2 编译src
tools编译成功后,就可以到src目录下,编译src
sudo ./configure --shared
sudo make depend -j
sudo make -j 1
要等一段时间
编译成功!
3.3 跑yesno例子来验证
进入yesno目录下,kaldi/egs/yesno运行自带的yesno例子,跑./run.sh即可运行
cd ..cd egs/yesno/s5
跑起来
sudo ./run.sh
没有报错,
看到最后一行,恭喜你例程跑通!搞定!
四. 小结
这是kaldi初学者都会经历的配置的步骤,大同小异,看到报错的话不要紧张,根据提示把缺失的库安装上来,确实需要花点时间,但并不难,一步一步来,kaldi环境也就搭起来了,下一步的话,会考虑跑一些其他的例程,或者训练一个自己的语音模型,后续再继续分享。
本次安装配置主要参考:kaldi的编译安装与报错解决方法