云计算百科
云计算领域专业知识百科平台

开源即用,3 行代码合成自然语音——OuteTTS 本地部署教程,一键接入全场景语音能力

一、模型介绍

OutsTTS是基于Qwen3 0.6B 构建的基础模型,经过持续的预训练和微调,主要用于克隆和合成语音,由英语、中文、荷兰语、法语、格鲁吉亚语、德语、匈牙利语、意大利语、日语、韩语、拉脱维亚语、波兰语、俄语、西班牙语训练而成,该模型设计用于与发言人参考一起使用。如果没有参考,它会生成随机的语音特征,通常会导致较低质量的输出。

该模型继承了参考发言人的感情、风格和口音。 当将同一发言人的语音转换为其他语言时,您可能会发现模型保留了原始口音,比如将英式口音发言人转换成中文时,会带有明显的英式口音。

最佳性能: 在单次运行中生成大约 42 秒 的音频(约 8,192 个标记)。建议不要接近此窗口的极限。通常,最佳结果不超过 7,000 个标记。

使用发言人参考时的上下文减少: 如果发言人参考为 10 秒长,则有效上下文减少到大约 32 秒。

模型快速搭建方法请参考算家云“镜像社区”

二、模型部署步骤

模型部署环境

ubuntu22.04.4 LTS
cuda 12.4.1
python 3.10
NVIDIA Corporation RTX4090

1.更新基础的软件包

查看系统版本信息

#查看系统的版本信息,包括ID(如ubuntu、centos等)、版本号、名称、版本号ID等
cat /etc/os-release

屏幕截图

配置国内源

#更新软件列表
apt-get update

屏幕截图

apt配置阿里源

vim /etc/apt/sources.list

image.png

将以下内容粘贴进文件中

deb http://mirrors.aliyun.com/debian/ bullseye main non-free contrib
deb-src http://mirrors.aliyun.com/debian/ bullseye main non-free contrib
deb http://mirrors.aliyun.com/debian-security/ bullseye-security main
deb-src http://mirrors.aliyun.com/debian-security/ bullseye-security main
deb http://mirrors.aliyun.com/debian/ bullseye-updates main non-free contrib
deb-src http://mirrors.aliyun.com/debian/ bullseye-updates main non-free contrib
deb http://mirrors.aliyun.com/debian/ bullseye-backports main non-free contrib
deb-src http://mirrors.aliyun.com/debian/ bullseye-backports main non-free contrib

2.基础Miniconda3环境

查看系统是否有miniconda的环境

conda -V

image.png

显示如上输出,即安装了相应环境,若没有miniconda的环境,通过以下方法进行安装

# 下载 Miniconda 安装脚本
wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh

# 运行 Miniconda 安装脚本
bash Miniconda3-latest-Linux-x86_64.sh

# 初次安装需要激活 base 环境
source ~/.bashrc

按下回车键(enter)

image.png

输入 yes

image.png

输入 yes

image.png

安装成功如下图所示

image.png

3.创建虚拟环境

创建名为“Outetts”的虚拟环境

conda create -n OuteTTs python=3.10 -y

image.png

激活虚拟环境

conda activate OuteTTs

image.png

4.从github仓库克隆项目

输入命令克隆OuteTTS存储库并进入到项目之中

git clone https://github.com/edwko/OuteTTS.git
cd OuteTTS

image.png

5.安装对应的pytorch环境

安装pytorch,选择合适的版本安装,建议python版本至少为3.9及以上

pip3 install torch torchvision torchaudio –index-url https://download.pytorch.org/whl/cu118

image.png

持续等待直至出现“successfully”,显示安装成功

image.png

6.下载依赖库

pip install -e .

依赖库下载时间较长,直至出现“successfully”显示下载成功

image.png

7.存储模型运行命令

创建demo.py文件用以存储命令

vim demo.py

image.png

cat demo.py

image.png

可以看到模型命令已经存储好了

运行模型命令

python demo.py

image.png

三、通过gradio进行演示

下载其他缺失依赖包

pip install gradio

image.png

通过gradio来运行写好的ui界面

访问界面

python app.py

image.png

出现如上显示可通过项目实例的开放端口进行访问

输入需要生成语音的文本(中文/英文)即可合成

image.png

输出结果

image.png

赞(0)
未经允许不得转载:网硕互联帮助中心 » 开源即用,3 行代码合成自然语音——OuteTTS 本地部署教程,一键接入全场景语音能力
分享到: 更多 (0)

评论 抢沙发

评论前必须登录!