💡 最近李宏毅老师更新了关于 KVCache 的教学视频,正好趁这个机会整理了下 KVCache 原理相关内容。 核心原理:transformer 架构是自回归的,在计算 Attention 是会用到过去的 key 和 value,缓存这些值通过空间换时间的方式,提高算力计算效率。 原理分析 Understanding and Coding the Self-Attention Mechanism of Large Language Models From Scratch 输入的句子通过 tokenizer 进行分词 对每个 token 进行 embedding 得到 embedding 向量 x 向量乘上预先训练好的权重矩阵 Wq、Wk、Wv 得到 q、k、v 向量 使用 attention 公式计算得到 z 向量 通过预先训练的好的权重矩阵可以得到 Query Token 1、Key Token 1 和 Value Token 1 使用 Attention 公式,计算得到 Token 1 对应的 Attention 通过 softmax 层并全连接到词表得到 Token 2 ...