
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
SK海力士(韩国):全球第二大半导体存储IDM厂商,全品类布局,主营DRAM内存、NAND闪存,是当前AI核心硬件HBM高带宽内存的全球绝对龙头,深度绑定英伟达AI服务器供应链,高端存储技术壁垒极高。美光科技(美国):美国唯一头部存储半导体巨头,DRAM、NAND闪存、HBM全覆盖,差异化优势集中在高端企业级存储、汽车存储、工业级存储,产品稳定性与可靠性行业顶尖,服务全球高端算力与车载市场。三星电
SK海力士(韩国):全球第二大半导体存储IDM厂商,全品类布局,主营DRAM内存、NAND闪存,是当前AI核心硬件HBM高带宽内存的全球绝对龙头,深度绑定英伟达AI服务器供应链,高端存储技术壁垒极高。美光科技(美国):美国唯一头部存储半导体巨头,DRAM、NAND闪存、HBM全覆盖,差异化优势集中在高端企业级存储、汽车存储、工业级存储,产品稳定性与可靠性行业顶尖,服务全球高端算力与车载市场。三星电
因为传统的 PPO 算法需要训练一个和主模型一样大的 Critic(价值网络)来打分,面对动辄几千 token 的长推理链,算力和显存直接爆炸。在 R1 中,思维链(CoT)不再是一个固定的 Prompt 模板,也不是人工标注的死数据。:先用少量高质量、带思维链的数据稳定模型,使其初步学会清晰、有序的“思考”模式,解决Zero版本可读性差的问题。过去的模型做推理,靠的是 SFT(监督微调)把人类写
过去几年,我的日常是“炼丹”——算 FLOPs、卡显存、调 Learning Rate、在 ResNet 或 YOLO 里加各种 Trick。在那个世界里,一切都很确定:输入一张 Tensor,经过一堆卷积层,输出一个预测结果。
《智能Agent的规划能力进化:从单步决策到闭环自学习系统》摘要: 本文探讨了如何赋予AI Agent高级规划能力,突破大模型固有的单步决策局限。通过引入过程奖励模型(PRM)作为"裁判";机制,实现了对决策路径的动态评估与优化;设计了可学习的重规划策略网络,使Agent具备自主判断"坚持/修正/重来";的决策能力;采用技能库封装技术,将成功经验抽象为高层可复用模块。最终构建了规划与记忆深度耦合的
《智能Agent的规划能力进化:从单步决策到闭环自学习系统》摘要: 本文探讨了如何赋予AI Agent高级规划能力,突破大模型固有的单步决策局限。通过引入过程奖励模型(PRM)作为"裁判";机制,实现了对决策路径的动态评估与优化;设计了可学习的重规划策略网络,使Agent具备自主判断"坚持/修正/重来";的决策能力;采用技能库封装技术,将成功经验抽象为高层可复用模块。最终构建了规划与记忆深度耦合的
本文探讨了AI代理记忆系统的优化方向,提出从传统静态规则转向可学习的神经网络架构。文章首先指出传统RAG检索的三大痛点:固定权重公式无法动态适应不同查询需求。解决方案包括:1)采用MoE门控机制实现可学习检索,通过日志数据训练网络动态调整相关性、时效性等权重;2)引入强化学习驱动的写入/遗忘策略网络,智能决定记忆存储方式;3)最终通过LoRA微调将高频知识参数化,实现从外部存储到模型内部权重的跃迁
构建高可靠 RAG 系统的核心哲学在于“悲观地对待模型能力,乐观地对待工程约束”。不要试图寻找一个“绝对不会幻觉”的大模型,而是要通过精密的检索链路(找得准)和严苛的指令工程(管得严),在物理层面上封死模型产生幻觉的通路。当系统真正做到了“知之为知之,不知为不知”,企业级 AI 的落地才算是迈过了最危险的深水区。
deepseekR1的推理增强机制,重点:GRPO思想+长CoT生成
运行程序时报错:定位的错误是:D=torch.nn.DataParallel(discriminator(n_filters=32)).cuda(gpu_id)本来以为是因为服务器上有4块显卡,GPU1,GPU2,GPU3的计算能力都是2.0,但是GPU0的计算能力是>3的,所以认为是调用的时候为每个GPU都分配一定的任务,所以才报错的. 但是 看其他框架下的代码直接使用XX....







