溯源 • 求索 • 笃行
未读
从 Loss 到微分,模型是怎么学习的?
写 KV Cache 的时候,重新审视了一遍 collate_fn 里的变量——tgt_out 是标准答案,模型输出是 logits——这些每天都在用的东西,我停下来重新走了一遍它们在维度上的完整链路。 理清了数据怎么从 token id 变成 d_model、又从 d_model 变回 vocab
AI
未读
KV Cache 实现手记——高估了,低估了,然后搞懂了
在衔言渡意的训练收尾阶段,我给自己的最后一项技术任务是给推理加上 KV Cache。 我对这个东西的第一印象来自行业讨论——到处都在说 KV Cache 管理、PagedAttention、prefix sharing。脑子里自动补全了一整套分布式系统的画面:用户登录鉴权,会话状态持久化,多轮对话中