大数据
01
2026-03-29
Transformer 注意力模块部分
1. "Self_Attention" 作用: - 计算最基础的注意力分数和注意力输出。 - 输入是 "Q"、"K"、"V",输出是加权后的结果 "out" 和注意力权重 "attn"。 它做了什么: 1. 用 "Q @ K^T" 计...