提示:利用阿里巴巴开源的FunASR工具包,搭建语音转文本服务,通过网页实现免费的语音转文本服务。
目录
前言
一、FunASR是什么?
二、服务搭建
2.1 服务器准备
2.2 安装docker
2.3 下载并启动镜像
2.4 启动ASR服务
三、下载客户端开始工作
总结
前言
语音转文本是我们经常面对的日常任务,都=是智能客服、会议记录、实时字幕等场景核心的功能。然而,传统语音识别系统往往面临高延迟、低准确率或复杂部署的挑战。FunASR 作为阿里巴巴开源的语音识别工具包,凭借其流式与非流式一体化架构、工业级优化和开箱即用的特性,为开发者提供了高效、精准的解决方案。本文将帮助读者快速掌握这一前沿技术,赋能你的实际业务场景。
一、FunASR是什么?
FunASR(Fast Universal Automatic Speech Recognition)是由阿里巴巴达摩院开源的一款高性能、多场景通用的语音识别(ASR)工具包。它基于端到端深度学习技术,支持多种语言(如中文、英文等),并针对工业级应用进行了优化,具有高精度、低延迟和易部署的特点。
FunASR拥有完整的语音识别链路,结合了语音端点检测、语音识别、标点等模型,可以将几十个小时的长音频与视频识别成带标点的文字,而且支持上百路请求同时进行转写。输出为带标点的文字,含有字级别时间戳,支持ITN与用户自定义热词等。服务端集成有ffmpeg,支持各种音视频格式输入。软件包提供有html、python、c++、java与c#等多种编程语言客户端,用户可以直接使用与进一步开发(下载链接在第三部分,百度云盘链接)。
具体服务架构如下图所示:
二、服务搭建
2.1 服务器准备
要求一台Linux服务器,可以根据自己的业务需求,选择合适的服务器配置,推荐配置为:
- 配置1: (X86,计算型),4核vCPU,内存8G,单机可以支持大约32路的请求
- 配置2: (X86,计算型),16核vCPU,内存32G,单机可以支持大约64路的请求
- 配置3: (X86,计算型),64核vCPU,内存128G,单机可以支持大约200路的请求
2.2 安装docker
执行以下两条命令即可安装完成
curl -O https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ASR/shell/install_docker.sh;
sudo bash install_docker.sh
2.3 下载并启动镜像
拉取镜像
sudo docker pull \\
registry.cn-hangzhou.aliyuncs.com/funasr_repo/funasr:funasr-runtime-sdk-cpu-0.4.7
启动镜像
mkdir -p ./funasr-runtime-resources/models
sudo docker run -p 10095:10095 -it -d –privileged=true \\
-v $PWD/funasr-runtime-resources/models:/workspace/models \\
–name funasr \\
registry.cn-hangzhou.aliyuncs.com/funasr_repo/funasr:funasr-runtime-sdk-cpu-0.4.7
2.4 启动ASR服务
进入容器
docker exec -it funasr /bin/bash
cd /worksapce/FunASR/runtime/
后台启动服务
nohup bash run_server.sh \\
–download-model-dir /workspace/models \\
–vad-dir damo/speech_fsmn_vad_zh-cn-16k-common-onnx \\
–model-dir damo/speech_paraformer-large-vad-punc_asr_nat-zh-cn-16k-common-vocab8404-onnx \\
–punc-dir damo/punc_ct-transformer_cn-en-common-vocab471067-large-onnx \\
–lm-dir damo/speech_ngram_lm_zh-cn-ai-wesp-fst \\
–itn-dir thuduj12/fst_itn_zh \\
–hotword /workspace/models/hotwords.txt > log.txt 2>&1 &
查看log出现如下输出,恭喜你,FunASR部署完成
I20250618 14:40:13.268452 1994 websocket-server.cpp:423] model successfully inited
I20250618 14:40:13.268462 1994 websocket-server.cpp:425] initAsr run check_and_clean_connection
I20250618 14:40:13.268668 1994 websocket-server.cpp:428] initAsr run check_and_clean_connection finished
I20250618 14:40:13.268684 1994 funasr-wss-server.cpp:513] decoder-thread-num: 255
I20250618 14:40:13.268694 1994 funasr-wss-server.cpp:514] io-thread-num: 16
I20250618 14:40:13.268703 1994 funasr-wss-server.cpp:515] model-thread-num: 1
I20250618 14:40:13.268712 1994 funasr-wss-server.cpp:516] asr model init finished. listen on port:10095
三、下载客户端开始工作
客户端下载地址 链接: https://pan.baidu.com/s/1IqtaFIV1Uj6vbZ49aWrC1w 提取码: 8qbe
打开html/static/文件夹下的index.html
填写服务器的地址→选择文件→点击连接,即可开始转换!
注:若是本机部署,ip地址填写wss://127.0.0.1:10095即可
总结
文章详细讲解了服务部署步骤,包括服务器配置要求、Docker安装、镜像启动及ASR服务配置,最终通过网页客户端实现免费语音转写功能。该方案适用于智能客服、会议记录等场景,为用户提供了高效便捷的语音识别解决方案。
评论前必须登录!
注册