标签: Transformer | 折翼天使

互动

最近评论

标签

寻找感兴趣的领域

文章

Agent 0 剪枝 0 量化 0 Projection 2 Transformer 2 AttentionMask 1 Bias 1 MultiheadAttention 1 MHA 1 Cross Entropy 1 Perplexity 1 NDCG 1 MRR 1 Recall@K 1 ROUGE 1 Hamming Loss 1 F1 1 Recall 1 Precision 1 Exact Match 1 Accuracy 1 BLEU 2 Dropout 1 AdamW 1 Loss 3 KV Cache 1 TDR 0 Tokenizer 1 分词 1 DiskPart 1 exFat 1 分区管理 1 Linux 2 双系统 2 GRUB 1 Arch 1 Garuda 1 vps 1 ssh 1 annotationProcessor 0 docker compose 1 EditorConfig 0 证书签发 1 SSL 1 acme.sh 1 Jupyter 1 Python 1 HuggingFace 4 Conda 1 LLM 17 NLP 16 WSL2 2 Intellij 1 小米 1 SubModule 1 Xray 1 Ubuntu 2 Git 2 Windows 5 Jimmer 1 React 1 Kotlin 0 Java 0 KAPT 0 KSP 0 Gradle 0 Winget 1 Rime 1 Windows 11 4 IBM Informix 1 IBM Db2 LUW 1 DB2 iSeries (AS400) 1

从 Loss 到微分，模型是怎么学习的？

溯源 • 求索 • 笃行未读

从 Loss 到微分，模型是怎么学习的？

写 KV Cache 的时候，重新审视了一遍 collate_fn 里的变量——tgt_out 是标准答案，模型输出是 logits——这些每天都在用的东西，我停下来重新走了一遍它们在维度上的完整链路。理清了数据怎么从 token id 变成 d_model、又从 d_model 变回 vocab

LLM Transformer Projection Loss 2026-04-05

KV Cache 实现手记——高估了，低估了，然后搞懂了

AI 未读

KV Cache 实现手记——高估了，低估了，然后搞懂了

在衔言渡意的训练收尾阶段，我给自己的最后一项技术任务是给推理加上 KV Cache。我对这个东西的第一印象来自行业讨论——到处都在说 KV Cache 管理、PagedAttention、prefix sharing。脑子里自动补全了一整套分布式系统的画面：用户登录鉴权，会话状态持久化，多轮对话中

LLM NLP KV Cache MHA MultiheadAttention Bias AttentionMask Transformer Projection 2026-04-03