AI
未读
从数据反推模型架构:一个小模型训练的经验公式
引言:差了一个数量级 韵染流光是6060万参数,数语觅类是420万参数。同样是从零训练的小语言模型,参数量差了14倍。 我知道数语觅类更简单。韵染流光的DSL是我多次推翻重新设计的结果,自然语言理解、多轮上下文追踪、近似方法调用的DSL解析——这些东西叠在一起,学习难度很高。数语觅类就是给列名和样本
AI
未读
通用 Tokenizer 评估方案——从项目专用到任务无关
引言 数语觅类(我的第二个项目,数据库列语义分类)里写了一个 verify 函数,用来评估 tokenizer 的词表大小是否合理。核心逻辑是对样本做编码,统计平均 token 数,然后给建议: # 评估建议(基于样本)
if avg_length > 20:
print(f"⚠️ 建议:
AI
未读
LLM模型资源占用优化
模型加载流程 模型加载时, 做这些事情: 加载配置信息 模型结构、层数、注意力头数、参数精度等元信息 加载模型权重 下载或使用已经缓存的模型权重文件 如果模型使用bin格式,需要PyTorch版本大于等于2.6 若PyTorch版本低于2.6,则需要使用safetensors格式
AI
未读
Win11下使用wsl2完成LLM环境搭建
首先,确保系统的显卡驱动是最新的 终端(Windows Terminal) 安装 不推荐使用CMD或者PowerShell 不是不能用,只是终端更好一些——个人感觉,它有如下优点: 拖拽选中,右键直接复制/粘贴 支持复制粘贴快捷键 可以选中内容直接输入替换 有不错的语法高亮 对于写代码的来说,多么有