当前位置：网硕互联帮助中心 > 服务器百科 > 正文

Economic Evaluation of LLMs

2025-08-14 分类：服务器百科阅读(310) 评论(0)

文章主要内容总结

本文针对大型语言模型（LLMs）评估中帕累托前沿方法无法比较不同优缺点模型（如低成本高误差模型与高成本高精度模型）的问题，提出了LLM经济评估框架。该框架基于具体应用场景的经济约束（以美元量化），将LLM的性能权衡转化为单一数值，这些约束包括：错误成本（一次错误的经济损失）、增量延迟成本（单位延迟的经济损失）、放弃查询成本（不响应查询的经济损失）。

通过将该框架应用于MATH基准测试中的难题，研究发现：

当错误成本超过0.01美元时，推理模型的准确率-成本权衡优于非推理模型；
当错误成本低至0.1美元时，单一大型LLM的表现通常优于级联模型（小型模型→大型模型）；
特殊情况下，以Llama3.1 405B作为小型模型的级联模型，在错误成本高达10,000美元时仍能优于单一大型模型，因其自验证能力（不确定性信号质量）较强。

此外，文章还从理论上解释了级联模型的性能（基于新的协方差指标），并将经济评估框架与帕累托最优的多目标优化建立了联系。

创新点

提出LLM经济评估框架：通过量化具体场景的经济约束（错误成本、延迟成本、放弃查询成本），将LLM的多维度性能权衡转化为单一最优模型的选择，解决了帕累托前沿无法直接比较不同模型的问题。

实证确定临界经济阈值：通过实验明确了推理模型优于非推理模型、单一大型LLM优于级联模型的临界错误成本（如推理模型在错误成本>0.01美元时更优）。

赞(0)

未经允许不得转载：网硕互联帮助中心 » Economic Evaluation of LLMs

标签：LLM Daily LLM Evaluation 人工智能前端数据挖掘

相关推荐

评论抢沙发

评论前必须登录！

立即登录注册