qxq_sunshine 个人主页

@qxqsunshine

qxq_sunshine

2022-12-02 15:12:10 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

彻底搞懂：半导体、内存、硬盘、CPU存储的底层关系

SK海力士（韩国）：全球第二大半导体存储IDM厂商，全品类布局，主营DRAM内存、NAND闪存，是当前AI核心硬件HBM高带宽内存的全球绝对龙头，深度绑定英伟达AI服务器供应链，高端存储技术壁垒极高。美光科技（美国）：美国唯一头部存储半导体巨头，DRAM、NAND闪存、HBM全覆盖，差异化优势集中在高端企业级存储、汽车存储、工业级存储，产品稳定性与可靠性行业顶尖，服务全球高端算力与车载市场。三星电

彻底搞懂：半导体、内存、硬盘、CPU存储的底层关系

DeepseekR1的推理增强机制的核心

因为传统的 PPO 算法需要训练一个和主模型一样大的 Critic（价值网络）来打分，面对动辄几千 token 的长推理链，算力和显存直接爆炸。在 R1 中，思维链（CoT）不再是一个固定的 Prompt 模板，也不是人工标注的死数据。：先用少量高质量、带思维链的数据稳定模型，使其初步学会清晰、有序的“思考”模式，解决Zero版本可读性差的问题。过去的模型做推理，靠的是 SFT（监督微调）把人类写

#人工智能 #机器学习 #深度学习

从 CNN 到 Agent：给 DL 工程师的“智能体”入门黑话指南（概念篇）

过去几年，我的日常是“炼丹”——算 FLOPs、卡显存、调 Learning Rate、在 ResNet 或 YOLO 里加各种 Trick。在那个世界里，一切都很确定：输入一张 Tensor，经过一堆卷积层，输出一个预测结果。

#cnn #人工智能 #神经网络

从 ToT 到 PRM：Agent 的规划是如何被“训练”出来的？

《智能Agent的规划能力进化：从单步决策到闭环自学习系统》摘要：本文探讨了如何赋予AI Agent高级规划能力，突破大模型固有的单步决策局限。通过引入过程奖励模型(PRM)作为"裁判";机制，实现了对决策路径的动态评估与优化；设计了可学习的重规划策略网络，使Agent具备自主判断"坚持/修正/重来";的决策能力；采用技能库封装技术，将成功经验抽象为高层可复用模块。最终构建了规划与记忆深度耦合的

#人工智能

从 ToT 到 PRM：Agent 的规划是如何被“训练”出来的？

#人工智能

Agent 记忆不只是一个向量库：检索门控、遗忘策略与参数化记忆

本文探讨了AI代理记忆系统的优化方向，提出从传统静态规则转向可学习的神经网络架构。文章首先指出传统RAG检索的三大痛点：固定权重公式无法动态适应不同查询需求。解决方案包括：1）采用MoE门控机制实现可学习检索，通过日志数据训练网络动态调整相关性、时效性等权重；2）引入强化学习驱动的写入/遗忘策略网络，智能决定记忆存储方式；3）最终通过LoRA微调将高频知识参数化，实现从外部存储到模型内部权重的跃迁

#人工智能

构建高可靠企业级 RAG 系统：从 Naive RAG 到面向生成优化的防幻觉实践

构建高可靠 RAG 系统的核心哲学在于“悲观地对待模型能力，乐观地对待工程约束”。不要试图寻找一个“绝对不会幻觉”的大模型，而是要通过精密的检索链路（找得准）和严苛的指令工程（管得严），在物理层面上封死模型产生幻觉的通路。当系统真正做到了“知之为知之，不知为不知”，企业级 AI 的落地才算是迈过了最危险的深水区。

#人工智能 #算法 #大数据

拆解 DeepSeek-R1 的“大脑重塑”术（GRPO与CoT的极致共舞)

deepseekR1的推理增强机制，重点：GRPO思想+长CoT生成

#深度学习 #语言模型

报错:RuntimeError: CUDA error: all CUDA-capable devices are busy or unavailable

运行程序时报错:定位的错误是:D=torch.nn.DataParallel(discriminator(n_filters=32)).cuda(gpu_id)本来以为是因为服务器上有4块显卡,GPU1,GPU2,GPU3的计算能力都是2.0,但是GPU0的计算能力是>3的,所以认为是调用的时候为每个GPU都分配一定的任务,所以才报错的. 但是看其他框架下的代码直接使用XX....

共 28 条

请选择