logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

How LLMs Actually Work(翻译)

现代主流大语言模型(LLM)几乎都是把同一种结构————一层一层堆起来的。所以只要把一个 Transformer 内部的几个零件理解透,就能看懂绝大部分主流 LLM 的论文和 model card。用什么数据训练;模型规模与超参(层数、宽度、注意力头数等);后训练阶段做了什么(SFT、RLHF、DPO……)。下面按 9 个主题,把 LLM 的"内部机器"从输入到输出走一遍。读完前 8 节,你会发现

#前端#.net
How LLMs Actually Work(翻译)

现代主流大语言模型(LLM)几乎都是把同一种结构————一层一层堆起来的。所以只要把一个 Transformer 内部的几个零件理解透,就能看懂绝大部分主流 LLM 的论文和 model card。用什么数据训练;模型规模与超参(层数、宽度、注意力头数等);后训练阶段做了什么(SFT、RLHF、DPO……)。下面按 9 个主题,把 LLM 的"内部机器"从输入到输出走一遍。读完前 8 节,你会发现

#前端#.net
怎么让我的AI编程助手有“记性”

如果团队有特殊需求,可以自建记忆层。但先泼盆冷水:⚠️ 复杂度↑ ≠ 收益↑,别为了炫技而炫技Mem0:专为LLM设计的记忆API,处理去重、冲突、时间上下文:通用记忆服务,支持多模型接入✅ 自建方案(需要工程能力):用向量数据库# 简易示例:用Milvus检索相关上下文# 连接本地Milvus# 加载已存好的代码片段集合# 用当前问题搜相似历史data=[embed_query("怎么用阿里云短

#人工智能
自学Python第五天:数据输入(input语句)、布尔类型、比较运算符和逻辑运算符

当时我说input()拿到的内容是字符串,要用int()转换才能当数字用。但我没有仔细讲input()到底是什么,也没讲为什么需要转换。今天就来补上这一课,顺便把布尔类型、比较运算符和逻辑运算符一起搞定。

#java#python#前端
类比StandardServer, 抓住StandardService整体类依赖结构来理解

mapper.addHost 方法是将 Host 加入的 Mapper 类的的成员变量MappedHost[] hosts 中。for 语句就是找出一个名字跟 defaultHost 指定的名字相同的 Host 对象。acceptCount:当所有可以使用的处理请求的线程都被用光时,可以放到处理队列中的请求数,超过这个数的请求将不予处理,而返回Connection refused错误。maxThr

#javascript#开发语言
CSS 滚动驱动动画(scroll-timeline):无 JS 实现滚动特效

CSS 滚动驱动动画让元素的动画进度与滚动位置绑定,无需 JavaScript。创建一个视图时间线,当元素进入/离开视口时触发动画。创建一个滚动时间线,将动画进度与滚动位置关联。控制动画在滚动范围内的哪个阶段执行。效果:进度条宽度随页面滚动增长。

#css#javascript#前端
到底了