云计算百科
云计算领域专业知识百科平台

lmdeploy v0.12.1 最新版本发布!全面支持glm-4.7-flash,优化Qwen3系列模型与Transformers v5兼容性,稳定性与性能双提升!

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

近日,lmdeploy v0.12.1版本正式发布!这一版本不仅在功能上实现了重要突破,还在性能优化与Bug修复方面带来了全面升级,标志着lmdeploy框架在大模型部署与推理领域迈出了坚实一步。以下为本次更新的详细内容。


🚀 新功能(Features)

在v0.12.1中,新增了几个关键功能:

  • 支持glm-4.7-flash:新增对glm-4.7-flash模型的全面支持,为用户提供更高效的推理体验。
  • Ascend平台支持EP:正式支持Ascend平台的EP运行模式,提升在华为昇腾硬件上的兼容和性能表现。

💥 改进(Improvements)

性能与兼容性方面进行了多项优化:

  • 修复Transformers v5的rotary embedding兼容问题:有效解决了在新版transformers中旋转嵌入异常的问题,提升模型稳定性。
  • 改进指标日志(metrics log)输出:优化指标记录与性能监控机制,使调试与性能评估更直观。
  • 支持Qwen3模型量化配置中忽略特定层:进一步增强Qwen3模型的量化灵活性,方便开发者自定义量化策略。
  • 新增自定义noaux kernel:提升系统可扩展性和内核处理能力。
  • 修复Qwen3-VL与Transformers v5兼容问题:保证视觉语言模型在最新Transformers环境下的兼容与稳定运行。

🐞 Bug修复(Bug fixes)

本次版本修复了多个关键问题,有效提升系统的稳定性与可靠性:

  • 修复工具调用解析器的流式游标问题。
  • 解决TP模式下引导解码的并发竞争问题。
  • 修复FA3检查逻辑。
  • 修复时间序列预处理中出现的异常。
  • 修复Attention算子中负KV序列长度错误。
  • 修复Qwen3-VL-MOE模型在长上下文场景下的不稳定问题。
  • 优化smooth quant逻辑,将量化后的norm移至CPU,避免旧q_linear引用问题。
  • 更新noaux-kernel检查机制,提升内核稳定性。

🌐 其他更新(Other)

在系统环境与文档方面也进行了更新:

  • 输入CUDA版本调整为12.6.2,适配最新CUDA环境,提高兼容性。
  • 在llm_compressor.md中新增Qwen3-8B精度评估,为开发者提供更全面的参考指标。
  • 重构CI测试用例,提升持续集成的稳定性与效率。
  • 设置interns1_1为interns1_pro别名,简化模型调用配置。
  • Docker构建优化:在使用CU13环境时自动跳过FA2组件,提高构建灵活性。
  • 最后,版本号正式升级至v0.12.1。

📦 更新概览

  • 共计12位贡献者参与本次版本迭代
  • 提交次数:21次
  • 文件改动:150处

🔧 总结

代码地址:github.com/InternLM/lmdeploy

lmdeploy v0.12.1版本专注于多平台适配、模型兼容性提升与高稳定性优化。此次更新不仅扩展了对新模型(如glm-4.7-flash、Qwen3-VL)的支持,还在性能日志、量化策略、内核执行方面实现了更高层次的优化。对于开发者而言,这一版本无疑是当前最值得升级的版本之一。

赞(0)
未经允许不得转载:网硕互联帮助中心 » lmdeploy v0.12.1 最新版本发布!全面支持glm-4.7-flash,优化Qwen3系列模型与Transformers v5兼容性,稳定性与性能双提升!
分享到: 更多 (0)

评论 抢沙发

评论前必须登录!