文章主要内容总结
本文针对大型语言模型(LLMs)评估中帕累托前沿方法无法比较不同优缺点模型(如低成本高误差模型与高成本高精度模型)的问题,提出了LLM经济评估框架。该框架基于具体应用场景的经济约束(以美元量化),将LLM的性能权衡转化为单一数值,这些约束包括:错误成本(一次错误的经济损失)、增量延迟成本(单位延迟的经济损失)、放弃查询成本(不响应查询的经济损失)。
通过将该框架应用于MATH基准测试中的难题,研究发现:
- 当错误成本超过0.01美元时,推理模型的准确率-成本权衡优于非推理模型;
- 当错误成本低至0.1美元时,单一大型LLM的表现通常优于级联模型(小型模型→大型模型);
- 特殊情况下,以Llama3.1 405B作为小型模型的级联模型,在错误成本高达10,000美元时仍能优于单一大型模型,因其自验证能力(不确定性信号质量)较强。
此外,文章还从理论上解释了级联模型的性能(基于新的协方差指标),并将经济评估框架与帕累托最优的多目标优化建立了联系。
评论前必须登录!
注册