云计算百科
云计算领域专业知识百科平台

Economic Evaluation of LLMs

文章主要内容总结

本文针对大型语言模型(LLMs)评估中帕累托前沿方法无法比较不同优缺点模型(如低成本高误差模型与高成本高精度模型)的问题,提出了LLM经济评估框架。该框架基于具体应用场景的经济约束(以美元量化),将LLM的性能权衡转化为单一数值,这些约束包括:错误成本(一次错误的经济损失)、增量延迟成本(单位延迟的经济损失)、放弃查询成本(不响应查询的经济损失)。

通过将该框架应用于MATH基准测试中的难题,研究发现:

  • 当错误成本超过0.01美元时,推理模型的准确率-成本权衡优于非推理模型;
  • 当错误成本低至0.1美元时,单一大型LLM的表现通常优于级联模型(小型模型→大型模型);
  • 特殊情况下,以Llama3.1 405B作为小型模型的级联模型,在错误成本高达10,000美元时仍能优于单一大型模型,因其自验证能力(不确定性信号质量)较强。

此外,文章还从理论上解释了级联模型的性能(基于新的协方差指标),并将经济评估框架与帕累托最优的多目标优化建立了联系。

创新点

  • 提出LLM经济评估框架:通过量化具体场景的经济约束(错误成本、延迟成本、放弃查询成本),将LLM的多维度性能权衡转化为单一最优模型的选择,解决了帕累托前沿无法直接比较不同模型的问题。
  • 实证确定临界经济阈值:通过实验明确了推理模型优于非推理模型、单一大型LLM优于级联模型的临界错误成本(如推理模型在错误成本>0.01美元时更优)。
  • 赞(0)
    未经允许不得转载:网硕互联帮助中心 » Economic Evaluation of LLMs
    分享到: 更多 (0)

    评论 抢沙发

    评论前必须登录!