云计算百科
云计算领域专业知识百科平台

AI端侧模型完整汇总表

模型类型

模型具体名称

模型属性

模型应用

目标检测模型(视觉类)

YOLOv5

CNN架构,INT8/FP16量化,参数量0.5M-20M,推理速度快,适配ARM CPU/NPU,开源可商用;适配版本:YOLOv5s(端侧首选)、YOLOv5n(纳米级)、YOLOv5m(中端平衡)

移动端实时检测、智能摄像头识别、车载障碍物检测、可穿戴设备异物检测、AI智能眼镜基础识物

YOLOv8

优化C2f骨干网络,动态量化,低内存占用,适配手机/嵌入式设备,支持微调;适配版本:YOLOv8n、YOLOv8s、YOLOv8l(端侧常用n/s版)

智能眼镜场景检测、工业缺陷检测、移动端人脸检测、IoT目标计数、AI智能眼镜实时识物

YOLOv11

轻量化骨干+检测头优化,INT8/FP16量化,参数量与YOLOv8n同级,推理速度提升,端侧离线推理,开源可商用;适配版本:YOLOv11n(端侧首选)、YOLOv11s、YOLOv11m

智能眼镜实时识物、移动端高精度检测、工业小目标检测、车载轻量感知、AI智能眼镜核心识物

YOLOv11_obb

支持倾斜/旋转目标检测,轻量化设计,参数量与YOLOv8同级,端侧离线推理;适配版本:YOLOv11n-obb、YOLOv11s-obb(旋转目标适配)

智能交通车牌检测、工业零件倾斜检测、无人机不规则目标识别、AI智能眼镜旋转物体识物

YOLOv26

新一代极致轻量化架构,INT4/INT8双量化支持,参数量较YOLOv11n进一步精简,推理速度提升20%+,低内存,适配ARM Cortex-M/A、低算力NPU,开源可商用;适配版本:YOLOv26n(端侧首选)、YOLOv26s

AI智能眼镜核心识物、超便携设备实时检测、可穿戴设备低功耗感知、嵌入式微型摄像头目标识别

图像分类模型(视觉类)

MobileNetV2

线性瓶颈+反转残差结构,深度可分离卷积,13.9M参数量(1.0版),量化适配,低功耗;适配版本:MobileNetV2-1.0(基础)、0.75(裁剪)、0.5(极致轻量化)

手机相册分类、智能手表场景识别、工业产品分类、可穿戴设备图像预处理、AI智能眼镜基础品类识物、入门级眼镜核心识物

MobileOne

结构极简,无残差/无注意力机制,推理速度快,2.1M-14.8M参数量,INT4量化适配;适配版本:MobileOne-S0(最小)、S1、S2(端侧常用S0/S1)

嵌入式设备快速分类、智能摄像头场景切换、可穿戴设备实时识别、AI智能眼镜精细品类识物、低功耗眼镜识物

MobileVit

融合CNN高效性与Transformer全局建模能力,轻量化设计,2.3M-15M参数量,图像分类准确率高于传统轻量CNN;适配版本:MobileVit-XS(端侧首选)、S、M

手机高清图像分类、智能眼镜精细识别、车载环境分类、AI智能眼镜物体品类精细化识物、复杂场景分类

姿态估计模型(视觉类)

YOLOv8-pose

基于YOLOv8架构扩展,支持人体17/21关键点检测,轻量化优化,推理速度快,支持实时姿态捕捉,适配端侧设备;适配版本:YOLOv8n-pose、YOLOv8s-pose、YOLOv8m-pose(端侧常用n/s版)

智能健身设备动作纠正、可穿戴设备人体姿态监测、工业工人操作规范检测、车载驾驶员疲劳姿态识别、AI智能眼镜人体姿态捕捉

语义分割模型(视觉类)

YOLOv8-seg

结合目标检测与语义分割,轻量化设计,支持像素级分割,参数量低,推理延迟小,适配移动端/嵌入式;适配版本:YOLOv8n-seg、YOLOv8s-seg(端侧主流)

车载路面分割(区分路面、行人、车辆)、工业缺陷区域分割、智能摄像头场景分割(前景/背景分离)、AI智能眼镜场景语义理解

OCR识别模型(视觉类)

LPR

专注车牌识别,轻量化优化,支持倾斜车牌、模糊车牌识别,推理速度快(单帧识别≤50ms),适配嵌入式/车载设备;适配版本:LPR-Lite(端侧轻量)、LPR-Plus(高精度)

车载ETC辅助、停车场车牌识别、道路监控车牌抓拍识别、AI智能眼镜车牌快速识别

PP-OCR

百度开源,支持中英文、多语言文本识别,轻量化设计,支持INT8量化,参数量小,支持离线识别;适配版本:PP-OCRv3-Lite(端侧首选)、PP-OCRv4-Lite(最新轻量)

手机拍照翻译、智能眼镜文本朗读、工业设备表盘识别、快递面单信息离线提取、AI智能眼镜文本识别与播报

视觉语言模型(视觉类)

CLIP

图文多模态融合,零样本分类能力强,轻量化优化,参数量精简至原版本1/10,支持端侧离线图文匹配;适配版本:CLIP-Lite、CLIP-ViT-B/32-Lite(裁剪版)

智能眼镜图像检索(拍图查物)、移动端离线图文内容分析、商品识别导购、AI智能眼镜零样本识物、生僻物品识别

YOLO-World

结合目标检测与视觉语言理解,支持开放词汇检测(自定义目标类别),轻量化优化,适配端侧设备,支持实时推理;适配版本:YOLO-World-v2-Lite、v3-Lite(端侧适配)

智能眼镜自定义目标识别、移动端开放域物体检测、车载自定义路标识别、工业自定义缺陷检测、AI智能眼镜语音指令识物

MobileSAM

SAM(Segment Anything Model)的端侧适配版,参数量从1.1B精简至6.8M,支持实时图像分割、任意目标分割,适配移动端/嵌入式;适配版本:MobileSAM-Base(基础)、MobileSAM-Tiny(极致轻量化)

智能眼镜任意物体分割(圈选识别)、移动端图像编辑(精准抠图)、工业任意缺陷分割、AI智能眼镜物体轮廓提取与识物

语音模型

Conformer

融合Transformer与CNN优势,轻量化优化,支持INT8量化,低延迟、高准确率,适配移动端/嵌入式,支持离线语音识别;适配版本:Conformer-Tiny(端侧首选)、Small、Base(常用Tiny/Small)

智能手表语音输入、车载离线语音控制、可穿戴设备语音命令识别、嵌入式设备语音交互、AI智能眼镜语音指令识别

VAD

轻量级,低功耗运行,支持实时检测语音/非语音,适配移动端、可穿戴设备,可搭配语音识别模型使用,减少无效计算;适配版本:VAD-Lite(低功耗)、VAD-Pro(高精度)

智能耳机语音唤醒辅助、可穿戴设备语音录制降噪、车载语音交互触发(避免误唤醒)、AI智能眼镜语音唤醒辅助

VITS

基于变分自编码器与Transformer,合成语音自然度高,轻量化优化,参数量精简,支持端侧离线合成,低延迟;适配版本:VITS-Tiny(端侧轻量)、VITS-Lite(平衡)

智能眼镜语音播报(识物结果、文本内容)、移动端离线语音助手、可穿戴设备语音反馈、嵌入式设备语音提示

Sepformer

基于Transformer架构,轻量化优化,支持单通道/多通道语音分离,可分离人声与背景噪音,适配端侧低算力设备;适配版本:Sepformer-Tiny(端侧首选)、Sepformer-Small

智能耳机降噪(分离人声与环境噪音)、车载语音交互降噪、可穿戴设备语音录制去干扰、嵌入式设备清晰语音采集

ResNet(语音类)

基于ResNet架构,专注说话人特征提取,轻量化优化,支持INT8量化,低算力消耗,适配移动端/嵌入式;适配版本:ResNet-18-Speaker(端侧轻量)、ResNet-34-Speaker(高精度)

智能设备说话人验证(手机语音解锁)、车载个性化语音交互、可穿戴设备身份验证、AI智能眼镜说话人身份识别

语言模型

Punc(标点恢复)

轻量级,KB级-MB级参数量,推理速度快,支持中英文标点恢复,适配端侧离线场景,可搭配语音识别模型使用;适配版本:Punc-Lite(端侧轻量)、Punc-Base(高精度)

语音转文字后标点补充(可穿戴设备语音笔记、车载语音记录)、移动端离线文本编辑、嵌入式设备语音转写优化

TransformerLM

基于Transformer解码器架构,轻量化优化,参数量精简,支持端侧离线推理,擅长文本生成、上下文预测;适配版本:TransformerLM-Tiny(端侧首选)、TransformerLM-Small

移动端输入法联想、可穿戴设备短文本生成(语音助手回复)、嵌入式设备文本补全、离线短文本摘要

说明:1. 所有模型均聚焦端侧适配,属性中明确标注适配版本、量化方式、参数量等核心选型信息;2. 应用场景优先涵盖AI智能眼镜、可穿戴设备、移动端、车载、嵌入式等端侧典型场景;

赞(0)
未经允许不得转载:网硕互联帮助中心 » AI端侧模型完整汇总表
分享到: 更多 (0)

评论 抢沙发

评论前必须登录!