利用FunASR搭建自己的语音转文本服务器（有手就行）

提示：利用阿里巴巴开源的FunASR工具包，搭建语音转文本服务，通过网页实现免费的语音转文本服务。

前言

一、FunASR是什么？

二、服务搭建

2.1 服务器准备

2.2 安装docker

2.3 下载并启动镜像

2.4 启动ASR服务

三、下载客户端开始工作

总结

前言

语音转文本是我们经常面对的日常任务，都=是智能客服、会议记录、实时字幕等场景核心的功能。然而，传统语音识别系统往往面临高延迟、低准确率或复杂部署的挑战。FunASR 作为阿里巴巴开源的语音识别工具包，凭借其流式与非流式一体化架构、工业级优化和开箱即用的特性，为开发者提供了高效、精准的解决方案。本文将帮助读者快速掌握这一前沿技术，赋能你的实际业务场景。

一、FunASR是什么？

FunASR（Fast Universal Automatic Speech Recognition）是由阿里巴巴达摩院开源的一款高性能、多场景通用的语音识别（ASR）工具包。它基于端到端深度学习技术，支持多种语言（如中文、英文等），并针对工业级应用进行了优化，具有高精度、低延迟和易部署的特点。

FunASR拥有完整的语音识别链路，结合了语音端点检测、语音识别、标点等模型，可以将几十个小时的长音频与视频识别成带标点的文字，而且支持上百路请求同时进行转写。输出为带标点的文字，含有字级别时间戳，支持ITN与用户自定义热词等。服务端集成有ffmpeg，支持各种音视频格式输入。软件包提供有html、python、c++、java与c#等多种编程语言客户端，用户可以直接使用与进一步开发（下载链接在第三部分，百度云盘链接）。

具体服务架构如下图所示：

二、服务搭建

2.1 服务器准备

要求一台Linux服务器，可以根据自己的业务需求，选择合适的服务器配置，推荐配置为：

配置1: （X86，计算型），4核vCPU，内存8G，单机可以支持大约32路的请求
配置2: （X86，计算型），16核vCPU，内存32G，单机可以支持大约64路的请求
配置3: （X86，计算型），64核vCPU，内存128G，单机可以支持大约200路的请求

2.2 安装docker

执行以下两条命令即可安装完成

curl -O https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ASR/shell/install_docker.sh；
sudo bash install_docker.sh

2.3 下载并启动镜像

拉取镜像

sudo docker pull \\
registry.cn-hangzhou.aliyuncs.com/funasr_repo/funasr:funasr-runtime-sdk-cpu-0.4.7

启动镜像

mkdir -p ./funasr-runtime-resources/models
sudo docker run -p 10095:10095 -it -d –privileged=true \\
-v $PWD/funasr-runtime-resources/models:/workspace/models \\
–name funasr \\
registry.cn-hangzhou.aliyuncs.com/funasr_repo/funasr:funasr-runtime-sdk-cpu-0.4.7

2.4 启动ASR服务

进入容器

docker exec -it funasr /bin/bash
cd /worksapce/FunASR/runtime/

后台启动服务

nohup bash run_server.sh \\
–download-model-dir /workspace/models \\
–vad-dir damo/speech_fsmn_vad_zh-cn-16k-common-onnx \\
–model-dir damo/speech_paraformer-large-vad-punc_asr_nat-zh-cn-16k-common-vocab8404-onnx \\
–punc-dir damo/punc_ct-transformer_cn-en-common-vocab471067-large-onnx \\
–lm-dir damo/speech_ngram_lm_zh-cn-ai-wesp-fst \\
–itn-dir thuduj12/fst_itn_zh \\
–hotword /workspace/models/hotwords.txt > log.txt 2>&1 &

查看log出现如下输出，恭喜你,FunASR部署完成

I20250618 14:40:13.268452 1994 websocket-server.cpp:423] model successfully inited
I20250618 14:40:13.268462 1994 websocket-server.cpp:425] initAsr run check_and_clean_connection
I20250618 14:40:13.268668 1994 websocket-server.cpp:428] initAsr run check_and_clean_connection finished
I20250618 14:40:13.268684 1994 funasr-wss-server.cpp:513] decoder-thread-num: 255
I20250618 14:40:13.268694 1994 funasr-wss-server.cpp:514] io-thread-num: 16
I20250618 14:40:13.268703 1994 funasr-wss-server.cpp:515] model-thread-num: 1
I20250618 14:40:13.268712 1994 funasr-wss-server.cpp:516] asr model init finished. listen on port:10095

三、下载客户端开始工作

客户端下载地址链接: https://pan.baidu.com/s/1IqtaFIV1Uj6vbZ49aWrC1w 提取码: 8qbe

打开html/static/文件夹下的index.html

填写服务器的地址→选择文件→点击连接，即可开始转换！

注：若是本机部署，ip地址填写wss://127.0.0.1:10095即可

总结

文章详细讲解了服务部署步骤，包括服务器配置要求、Docker安装、镜像启动及ASR服务配置，最终通过网页客户端实现免费语音转写功能。该方案适用于智能客服、会议记录等场景，为用户提供了高效便捷的语音识别解决方案。

利用FunASR搭建自己的语音转文本服务器（有手就行）

前言

一、FunASR是什么？