云计算百科
云计算领域专业知识百科平台

从Transformer 底层原理 来看,提示词的“冗余”是一个与模型的 注意力机制 、 上下文理解逻辑 以及 信息处理效率

从Transformer 底层原理 来看,提示词的“冗余”是一个与模型的 注意力机制 、 上下文理解逻辑 以及 信息处理效率


一、先理解:为什么叫「自注意力」?

自注意力(Self-Attention)的核心是:让输入序列里的每个词(token)都能“看见”并“关注”序列里的所有其他词,从而捕捉整个上下文的关联。

比如在句子「我 爱 自然语言处理」中:

  • 「我」需要知道「爱」和「自然语言处理」是什么,才能理解自己在表达什么。
  • 「爱」需要知道「我」和「自然语言处理」,才能明确动作的主体和对象。
  • 「自然语言处理」需要知道「我」和「爱」,才能明白自己是被爱的对象。

这种“自己和自己对话、建立关联”的机制,就叫自注意力。


二、i 和 j 的核心区别

在自注意力公式里:

  • i:代表「当前要计算注意力的 token」(是“观察者”,发出 Query)
  • j:代表「被观察的 token」(是“被观察者”,提供 Key 和 Value)

简单说:

  • 每个 i 对应一个 Query(Qᵢ),用来“询问”所有其他 token。
  • 每个 j
赞(0)
未经允许不得转载:网硕互联帮助中心 » 从Transformer 底层原理 来看,提示词的“冗余”是一个与模型的 注意力机制 、 上下文理解逻辑 以及 信息处理效率
分享到: 更多 (0)

评论 抢沙发

评论前必须登录!