Projection
1
Transformer
1
AttentionMask
1
Bias
1
MultiheadAttention
1
MHA
1
Cross Entropy
1
Perplexity
1
NDCG
1
MRR
1
Recall@K
1
ROUGE
1
Hamming Loss
1
F1
1
Recall
1
Precision
1
Exact Match
1
Accuracy
1
BLEU
2
Dropout
1
AdamW
1
Loss
2
KV Cache
1
TDR
0
Tokenizer
1
分词
1
DiskPart
1
exFat
1
分区管理
1
Linux
2
双系统
2
GRUB
1
Arch
1
Garuda
1
vps
1
ssh
1
annotationProcessor
0
docker compose
1
EditorConfig
0
证书签发
1
SSL
1
acme.sh
1
Jupyter
1
Python
1
HuggingFace
4
Conda
1
LLM
16
NLP
16
WSL2
2
Intellij
1
小米
1
SubModule
1
Xray
1
Ubuntu
2
Git
2
Windows
5
Jimmer
1
React
1
Kotlin
0
Java
0
KAPT
0
KSP
0
Gradle
0
Winget
1
Rime
1
Windows 11
4
IBM Informix
1
IBM Db2 LUW
1
DB2 iSeries (AS400)
1
AI
未读
KV Cache 实现手记——高估了,低估了,然后搞懂了
在衔言渡意的训练收尾阶段,我给自己的最后一项技术任务是给推理加上 KV Cache。 我对这个东西的第一印象来自行业讨论——到处都在说 KV Cache 管理、PagedAttention、prefix sharing。脑子里自动补全了一整套分布式系统的画面:用户登录鉴权,会话状态持久化,多轮对话中
你好啊!我是
折翼天使