logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

大模型可解释性-颠覆认知:大语言模型在预训练中并非“稳定变聪明”

这项研究打破了我们关于模型学习是线性成熟的美好想象。它揭示的“模式跳跃”现象,要求我们以更动态、更复杂的视角来审视预训练过程。但同时,它也带来了新的希望和工具。它表明,模型内部确实存在强烈的、趋向于“智能泛化”的倾向,只是这种倾向在与“捷径”的竞争中起伏不定。理解并监控这种动态,为我们提供了优化模型、引导其向更鲁棒、更可泛化方向发展的全新“杠杆”。预训练的黑箱,似乎又打开了一扇新的窗户。而我们手中

#语言模型#人工智能#机器学习
Claude Code大规模部署指南:解锁大型代码库生产力的核心模式

在大规模代码库中成功应用Claude Code,是一场关于工程严谨性和组织协同的实践。它要求我们将AI助手视为一个需要精心配置和持续维护的强大工具,而非一个开箱即用的“魔法黑盒”。从建立分层的CLAUDE.md开始,逐步引入钩子、技能和插件,并配以LSP集成和清晰的组织职责,你就能构建一个与你的代码库共同成长、持续释放开发团队生产力的智能编码环境。

Claude Code大规模部署指南:解锁大型代码库生产力的核心模式

在大规模代码库中成功应用Claude Code,是一场关于工程严谨性和组织协同的实践。它要求我们将AI助手视为一个需要精心配置和持续维护的强大工具,而非一个开箱即用的“魔法黑盒”。从建立分层的CLAUDE.md开始,逐步引入钩子、技能和插件,并配以LSP集成和清晰的组织职责,你就能构建一个与你的代码库共同成长、持续释放开发团队生产力的智能编码环境。

我是怎么理解 Orthrus 这套并行生成实现的

Orthrus 真正值得学的,不是“并行生成”这四个字,而是它把并行提案、共享 KV cache 和分布校正放进了同一个生成循环里。对做 LLM 推理的人来说,这种设计比单纯的 benchmark 数字更有参考价值。因为速度曲线可以随着硬件和实现变化,但“怎么在系统上少引入一个模型、少维护一份缓存、同时不把分布搞坏”这件事,才是更难、也更通用的工程问题。

HRM-Text 技术解析:一个把“高阶推理”做进预训练框架的 1B 级文本模型仓库

HRM-Text技术解析:1B级文本模型的创新训练框架 HRM-Text是一个专注于高效预训练的文本模型框架,其核心创新在于将高阶推理能力直接融入预训练过程。该框架采用分层递归的HRM模型结构,包含高层推理模块和低层细化模块的双层设计,通过多轮内部计算实现深度推理。技术亮点包括: 独特的训练机制:采用逐步增加反向传播路径的warmup策略,前期保证训练稳定,后期开启深度递归 优化的PrefixLM

Pedagogical RL:让模型学会“教自己”,而不是盲目等运气

对每个位置tttatmax⁡arg⁡max⁡aπθa∣xτtatmax​argamax​πθ​a∣xτt​dtlog⁡πθatmax⁡∣xτtπθτt∣xτtdt​logπθ​τt​∣xτt​πθ​atmax​∣xτt​​dtd_tdt​。

#人工智能#机器学习#算法
科技早报|2026年5月19日:AI 编码开始补 SDK、API 和审计链路

这篇 5 月 19 日科技早报聚焦 AI 编码平台最近更值得技术团队关注的一步:Anthropic 通过收购 Stainless,把 SDK、CLI 和 MCP server 这类开发者连接层直接拉进 Claude 平台;GitHub 则连续开放 cloud agent task API、审计接口、Spaces API、远程控制和低成本模型选项。相比单纯争夺聊天入口,这些变化更接近生产环境真正需要

#人工智能#开发者工具
科技早报|2026年5月18日:AI 平台开始补生产级控制面

这篇 5 月 18 日科技早报不追模型排行,而是聚焦更接近生产现场的变化:SAP 和 NVIDIA 把 agent 运行时安全前置到企业平台,Hermes 推动本地常驻 agent,AWS 用 M3 Ultra Mac 承接更重的 Apple 开发负载,Cloudflare 则复盘了一个会把 QUIC 打进死循环的底层优化陷阱。

#科技#人工智能#开发者工具
科技早报晚报|2026年5月17日:调度基础设施、自托管邮件引擎与 AI 仪表盘代码,今晚更值得跟进的 3 个技术机会

今晚这轮科技新闻更值得看的,是三类已经存在明确预算线、但正在被开源和 AI 重新改造的基础设施:可自控的调度系统、自托管的邮件与订阅引擎,以及面向 AI 协作的 Dashboard-as-Code 工作台。文章从 15 个候选项目里筛出 10 个,并重点拆解最适合继续做成产品或团队基础层的 3 条路线。

#科技#人工智能#开发者工具
科技晚报|2026年5月17日:AI 开始进入国家与企业制度层

这篇 5 月 17 日科技晚报聚焦一个更长周期的变化:Anthropic 与 PwC 把 Claude 推向企业函数重构,OpenAI 与马耳他把 ChatGPT Plus 变成国家级 AI 普及计划,AWS 则继续把多云互联与业务流程 agent 产品化。对技术读者来说,AI 竞争正在从模型能力进一步转向组织制度、网络架构和真实工作流的默认入口。

#科技#人工智能
    共 151 条
  • 1
  • 2
  • 3
  • 16
  • 请选择