云计算百科
云计算领域专业知识百科平台

利用FunASR搭建自己的语音转文本服务器(有手就行)

提示:利用阿里巴巴开源的FunASR工具包,搭建语音转文本服务,通过网页实现免费的语音转文本服务。

目录

前言

一、FunASR是什么?

二、服务搭建

2.1 服务器准备

2.2 安装docker

2.3 下载并启动镜像

2.4 启动ASR服务

三、下载客户端开始工作

总结


前言

语音转文本是我们经常面对的日常任务,都=是智能客服、会议记录、实时字幕等场景核心的功能。然而,传统语音识别系统往往面临高延迟、低准确率或复杂部署的挑战。FunASR 作为阿里巴巴开源的语音识别工具包,凭借其流式与非流式一体化架构、工业级优化和开箱即用的特性,为开发者提供了高效、精准的解决方案。本文将帮助读者快速掌握这一前沿技术,赋能你的实际业务场景。


一、FunASR是什么?

FunASR(Fast Universal Automatic Speech Recognition)是由阿里巴巴达摩院开源的一款高性能、多场景通用的语音识别(ASR)工具包。它基于端到端深度学习技术,支持多种语言(如中文、英文等),并针对工业级应用进行了优化,具有高精度、低延迟和易部署的特点。

FunASR拥有完整的语音识别链路,结合了语音端点检测、语音识别、标点等模型,可以将几十个小时的长音频与视频识别成带标点的文字,而且支持上百路请求同时进行转写。输出为带标点的文字,含有字级别时间戳,支持ITN与用户自定义热词等。服务端集成有ffmpeg,支持各种音视频格式输入。软件包提供有html、python、c++、java与c#等多种编程语言客户端,用户可以直接使用与进一步开发(下载链接在第三部分,百度云盘链接)。

具体服务架构如下图所示:

二、服务搭建

2.1 服务器准备

要求一台Linux服务器,可以根据自己的业务需求,选择合适的服务器配置,推荐配置为:

  • 配置1: (X86,计算型),4核vCPU,内存8G,单机可以支持大约32路的请求
  • 配置2: (X86,计算型),16核vCPU,内存32G,单机可以支持大约64路的请求
  • 配置3: (X86,计算型),64核vCPU,内存128G,单机可以支持大约200路的请求

2.2 安装docker

执行以下两条命令即可安装完成

curl -O https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ASR/shell/install_docker.sh;
sudo bash install_docker.sh

2.3 下载并启动镜像

拉取镜像

sudo docker pull \\
registry.cn-hangzhou.aliyuncs.com/funasr_repo/funasr:funasr-runtime-sdk-cpu-0.4.7

启动镜像

mkdir -p ./funasr-runtime-resources/models
sudo docker run -p 10095:10095 -it -d –privileged=true \\
-v $PWD/funasr-runtime-resources/models:/workspace/models \\
–name funasr \\
registry.cn-hangzhou.aliyuncs.com/funasr_repo/funasr:funasr-runtime-sdk-cpu-0.4.7

2.4 启动ASR服务

进入容器

docker exec -it funasr /bin/bash
cd /worksapce/FunASR/runtime/

后台启动服务

nohup bash run_server.sh \\
–download-model-dir /workspace/models \\
–vad-dir damo/speech_fsmn_vad_zh-cn-16k-common-onnx \\
–model-dir damo/speech_paraformer-large-vad-punc_asr_nat-zh-cn-16k-common-vocab8404-onnx \\
–punc-dir damo/punc_ct-transformer_cn-en-common-vocab471067-large-onnx \\
–lm-dir damo/speech_ngram_lm_zh-cn-ai-wesp-fst \\
–itn-dir thuduj12/fst_itn_zh \\
–hotword /workspace/models/hotwords.txt > log.txt 2>&1 &

查看log出现如下输出,恭喜你,FunASR部署完成

I20250618 14:40:13.268452 1994 websocket-server.cpp:423] model successfully inited
I20250618 14:40:13.268462 1994 websocket-server.cpp:425] initAsr run check_and_clean_connection
I20250618 14:40:13.268668 1994 websocket-server.cpp:428] initAsr run check_and_clean_connection finished
I20250618 14:40:13.268684 1994 funasr-wss-server.cpp:513] decoder-thread-num: 255
I20250618 14:40:13.268694 1994 funasr-wss-server.cpp:514] io-thread-num: 16
I20250618 14:40:13.268703 1994 funasr-wss-server.cpp:515] model-thread-num: 1
I20250618 14:40:13.268712 1994 funasr-wss-server.cpp:516] asr model init finished. listen on port:10095

三、下载客户端开始工作

客户端下载地址 链接: https://pan.baidu.com/s/1IqtaFIV1Uj6vbZ49aWrC1w 提取码: 8qbe

打开html/static/文件夹下的index.html

填写服务器的地址→选择文件→点击连接,即可开始转换!

注:若是本机部署,ip地址填写wss://127.0.0.1:10095即可


总结

文章详细讲解了服务部署步骤,包括服务器配置要求、Docker安装、镜像启动及ASR服务配置,最终通过网页客户端实现免费语音转写功能。该方案适用于智能客服、会议记录等场景,为用户提供了高效便捷的语音识别解决方案。

赞(0)
未经允许不得转载:网硕互联帮助中心 » 利用FunASR搭建自己的语音转文本服务器(有手就行)
分享到: 更多 (0)

评论 抢沙发

评论前必须登录!