logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

Openai Agent Builder GPT-5+微调 知识库 构建智能客服

本文介绍了使用OpenAI平台构建智能工作流的完整流程:首先创建知识库并上传Markdown格式文档;然后设计工作流,根据业务需求配置节点类型;接着设置模型参数,包括推理方式、详细程度和输出格式等;完成发布预览后,通过Chatkit端进行集成测试;最后评估效果并进行模型微调,将优化后的模型重新部署到工作流中。该流程涵盖了从知识库构建到模型优化的全周期管理,适用于各类AI应用的开发部署。

大模型压缩:3-大模型量化剖析-不同方式对比-原理解析-实战案例,RTN、LLM.int8、SmoothQuant、AWQ、AutoAWQ、GPTQ、FP8

大模型量化技术概述与实战 本文系统介绍了大语言模型(LLM)量化技术,涵盖从基础概念到前沿算法的全面解析。主要内容包括: 核心概念: 量化目标:降低显存占用和计算成本,同时保持模型性能 量化方式:训练感知量化(QAT)与训练后量化(PTQ) 量化粒度:逐层、逐通道、逐组等不同粒度选择 量化对象:权重、激活值和KV缓存的量化策略差异 经典算法剖析: RTN:最基础的量化方法,适合小模型 LLM.in

#人工智能
PyTorch 与 TensorFlow 实战指南:从开发范式到企业级部署

本文介绍了PyTorch和TensorFlow的工业级开发实践,重点涵盖标准化训练流程构建和高级优化技巧。文章首先展示了两种框架的典型开发范式,包括数据管道、模型定义、训练循环和模型保存的完整代码示例。随后深入探讨了混合精度训练、分布式并行、性能剖析和数据管线优化等关键工业级技术,提供了混合精度实现、DDP分布式训练和性能分析的代码片段。最后简要提及了梯度累积等显存控制技术,帮助开发者在资源受限情

#pytorch#tensorflow#人工智能
GPT-5 系列深度详解:第5章-第一部分-应急准备框架-能力评估

本文介绍了OpenAI针对高能⼒AI模型在⽣物与化学领域的风险评估框架和应急准备措施。通过多项专业测试评估了模型在⽣物威胁制造关键环节的潜在风险,包括⻓篇⽣物风险问题回答、多模态病毒学故障排除、开放式实验协议修正等。测试结果显示,当前模型在部分领域表现接近或超过人类专家水平,但尚未达到显著提升恶意行为者能力的阈值。OpenAI采取了包括内容过滤、智能体监控等风险缓解措施,同时建立了与外部专家合作的

文章图片
大模型算法工程师-最新各大厂关键核心技能汇总,学习技术、路线、规划

本文总结了多家知名企业(小米、百度、华为、荣耀、京东等)的大模型相关岗位需求。主要职责包括大模型训练优化(SFT/RLHF/RAG)、多模态技术研发、智能体(Agent)应用开发,以及结合业务场景的AI解决方案落地。要求候选人具备深度学习/NLP背景,熟悉PyTorch等框架,有顶级会议论文或竞赛经历者优先。岗位聚焦大模型在搜索、金融、医疗等领域的创新应用,强调工程落地与前沿技术探索能力。

#算法#学习
大模型必知基础知识:5、Transformer架构-前馈神经网络(FFN)原理详解

前馈神经网络(FFN)是Transformer架构中的核心组件之一。本文详细介绍了FFN的基本原理及其在Transformer中的应用。FFN通过"先展开再压缩"的结构设计(通常包含两个线性变换层和ReLU激活函数),实现了对输入数据的非线性变换和复杂特征提取。在Transformer中,FFN位置独立地作用于每个token的表示,并与自注意力机制协同工作,为模型提供更强的表达

文章图片
#神经网络#人工智能#语言模型
大模型强化学习PPO、DPO、GRPO、GSPO算法深度对比:原理讲解-举例理解-代码案例实践

本文深入对比了四种大语言模型强化学习算法。PPO通过裁剪机制保证稳定训练但需奖励模型;DPO直接利用偏好数据避免奖励模型训练;GRPO引入群组比较提升多样性;GSPO选择性优化样本对提高效率。PPO稳定性好但复杂,DPO简单但依赖数据质量,GRPO增强多样性,GSPO结合多种优势但需调参。这些方法各有利弊,适用于不同场景,研究者可根据具体需求选择合适算法。

#人工智能
从 YAML 到 Markdown:规范驱动开发的演化与 AI 原生范式的崛起

从Kubernetes的YAML到AI时代的Markdown,技术领域正经历一场"声明式革命"的范式转移。云原生时代用YAML声明基础设施配置,AI原生时代则用Markdown声明智能体行为。GitHub的.prompt.md、AGENTS.md、SpecKit等工具标志着规范驱动开发(SDD)的兴起,开发者通过Markdown定义AI的语气、规则和能力模块,实现了从&quot

文章图片
#驱动开发#人工智能
AI圈正陷入命名地狱!Claude Skills上线,却遭开发者集体吐槽:LLM生态要爆炸了!

Anthropic发布ClaudeSkills新功能,让AI能调用特定"技能"完成专业任务。每个技能由指令、脚本和资源组成,可本地存储或云端调用,实现按需加载。该功能支持办公自动化、企业知识管理等多种场景,还能执行真实代码以提高效率。虽然功能强大,但也引发安全担忧和AI生态术语混乱的争议。开发者可轻松创建技能,企业则可构建内部技能库。这一创新或将推动AI向更专业化的方向发展,但

文章图片
#人工智能
大模型必知基础知识:11、大模型知识蒸馏原理和过程详解

大模型知识蒸馏是一种将大型教师模型的知识迁移到小型学生模型的技术。本文详细介绍了知识蒸馏的两种主要方式:白盒蒸馏和黑盒蒸馏。白盒蒸馏允许学生访问教师模型的内部参数,通过KL散度优化来对齐输出分布,特别介绍了MiniLLM方法采用反向KLD和策略梯度法优化生成质量。黑盒蒸馏则仅依赖教师模型的输入输出,更具实用性。文章还分析了正向与反向KLD的差异,以及它们在大语言模型生成任务中的应用场景。这些技术能

文章图片
    共 121 条
  • 1
  • 2
  • 3
  • 13
  • 请选择