从零开始用自定义 Triton 内核编写 FlashAttention-2本文实现 FlashAttention-2 的前向传播,具体包括:为 Q、K、V 设计分块策略;流式处理 K 和 V ...2026-02-08阅读(8)