互动
最近评论
从 Loss 到微分,模型是怎么学习的?
衔言渡意:中英法,六个方向
NLP评估指标:你的模型到底好在哪
训练控制的统计化——当 loss 和评估分数开始撒谎
KV Cache 实现手记——高估了,低估了,然后搞懂了
模型容量不够——下一步是加层还是加宽?
从数据反推模型架构:一个小模型训练的经验公式
通用 Tokenizer 评估方案——从项目专用到任务无关
数语觅类:"nl是什么?27是年龄吗?"
韵染流光 • 其一:代码三百行
你好啊!我是
折翼天使
最新评论
最近发布
引用到评论