当前位置：网硕互联帮助中心 > 服务器百科 > 正文

从Transformer 底层原理来看，提示词的“冗余”是一个与模型的注意力机制、上下文理解逻辑以及信息处理效率

2026-02-04 分类：服务器百科阅读(7) 评论(0)

从Transformer 底层原理来看，提示词的“冗余”是一个与模型的注意力机制、上下文理解逻辑以及信息处理效率

一、先理解：为什么叫「自注意力」？

自注意力（Self-Attention）的核心是：让输入序列里的每个词（token）都能“看见”并“关注”序列里的所有其他词，从而捕捉整个上下文的关联。

比如在句子「我爱自然语言处理」中：

「我」需要知道「爱」和「自然语言处理」是什么，才能理解自己在表达什么。
「爱」需要知道「我」和「自然语言处理」，才能明确动作的主体和对象。
「自然语言处理」需要知道「我」和「爱」，才能明白自己是被爱的对象。

这种“自己和自己对话、建立关联”的机制，就叫自注意力。

二、i 和 j 的核心区别

在自注意力公式里：

i：代表「当前要计算注意力的 token」（是“观察者”，发出 Query）
j：代表「被观察的 token」（是“被观察者”，提供 Key 和 Value）

简单说：

每个 i 对应一个 Query（Qᵢ），用来“询问”所有其他 token。
每个 j

赞(0)

未经允许不得转载：网硕互联帮助中心 » 从Transformer 底层原理来看，提示词的“冗余”是一个与模型的注意力机制、上下文理解逻辑以及信息处理效率

标签：#easyui transformer 人工智能深度学习

相关推荐

评论抢沙发

评论前必须登录！

立即登录注册