AI
未读
从数据反推模型架构:一个小模型训练的经验公式
引言:差了一个数量级 韵染流光是6060万参数,数语觅类是420万参数。同样是从零训练的小语言模型,参数量差了14倍。 我知道数语觅类更简单。韵染流光的DSL是我多次推翻重新设计的结果,自然语言理解、多轮上下文追踪、近似方法调用的DSL解析——这些东西叠在一起,学习难度很高。数语觅类就是给列名和样本
AI
未读
通用 Tokenizer 评估方案——从项目专用到任务无关
引言 数语觅类(我的第二个项目,数据库列语义分类)里写了一个 verify 函数,用来评估 tokenizer 的词表大小是否合理。核心逻辑是对样本做编码,统计平均 token 数,然后给建议: # 评估建议(基于样本)
if avg_length > 20:
print(f"⚠️ 建议:
溯源 • 求索 • 笃行
未读
数语觅类:"nl是什么?27是年龄吗?"
引言:VARCHAR(255)没告诉你的 数据库里有几百张表,每张表几十个列。 VARCHAR(255)告诉你它是字符串,INT告诉你它是整数,但这些只是物理类型。它们不回答真正重要的问题: 这个VARCHAR是邮箱、手机号、还是普通文本? 这个INT是年龄、金额、还是状态码? nl 这个列名是什么
溯源 • 求索 • 笃行
未读
韵染流光 • 其一:代码三百行
引言:写不出的第一行 韵染流光完成后,我能清楚地说出训练循环的每个环节。 dataset从文件中提取第idx个样本,dataloader通过sampler控制采样顺序,collate把样本组装成batch,模型接收batch开始前向传播。为什么要padding?因为GPU需要形状一致的数据。为什么要
溯源 • 求索 • 笃行
未读
韵染流光 • 其一:"亮一些的蓝"
引言:一个看似简单的想法 “红色,深一点,再偏蓝一些。” 当我试图让计算机理解这句话时,以为这会是件简单的事情——就算不简单,也不会太难。 我的想法很理所当然:颜色词是有限的,修饰词也是有限的。把它们的关系建立起来,训练一个模型,应该就可以了——最多,再加上一些修饰组合的不同方式。这和让AI写文章、
系统
未读
Windows下创建Linux可读写的共享分区:exFAT格式化完整指南
前言 为了在Windows和Linux双系统间共享数据,我需要一个两边都能读写的分区。理论上exFAT是最佳选择——没有FAT32的4GB文件大小限制,又比NTFS有更好的跨平台支持。然而,Windows的磁盘管理工具却给我上了一课。 ⚠️ 警告:本文的分区操作可能导致GRUB引导损坏! 最佳实践:
系统
未读
双系统GRUB修复:当Windows破坏Linux引导后
引言 在Windows/Linux双系统环境下,一个看似简单的分区调整操作,却让我陷入了"error: unknown filesystem. Entering rescue mode."的困境。这篇文章记录了我是如何从GRUB rescue模式中成功恢复系统的完整过程。 问题起因 为了在Windo
Linux
未读
Linux VPS安全配置:替换默认用户的完整指南
为什么要替换默认用户 很多VPS提供商会创建默认用户(如ubuntu、ggcuser、admin等),虽然方便了初始访问,但也带来了安全风险: 可预测性:默认用户名容易被攻击者猜测 攻击字典:常见于自动化扫描工具的用户名列表中 安全原则:减少可预测的系统信息是基本安全实践 本文将详细介绍如何安全地创
Linux
未读
SSH服务配置完全指南:从基础到实践
概述 SSH(Secure Shell)是Linux系统远程管理的核心服务,正确理解其配置文件结构和服务管理机制对系统管理至关重要。本文将从服务架构入手,详细记录SSH配置的完整流程。 SSH服务架构 SSH vs SSHD:核心概念区分 这两个概念容易混淆,先澄清一下: ssh:客户端程序 位置:
开发
未读
docker compose常用操作
安装 配置apt仓库 sudo apt-get install ca-certificates curl
sudo install -m 0755 -d /etc/apt/keyrings
sudo curl -fsSL https://download.docker.com/linux/ubunt