logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

浅谈推理大模型中使用核心的算法

推理大模型(如 GPT、PaLM、LLaMA 等)的核心算法原理围绕如何高效生成高质量文本或解决复杂任务展开。以下是关键算法的原理详解,从数学基础到实际应用逐步解析。

文章图片
#算法#机器学习#深度学习
ZeRO(Zero Redundancy Optimizer) 技术

训练超大模型(如GPT-3)时,!:每个GPU都保存完整的模型、优化器状态、梯度,浪费显存。:梯度同步需要大量数据传输。:消除内存冗余,同时保持计算效率。将模型训练所需的(参数、梯度、优化器状态)到不同GPU上,每个GPU只保留一部分,需要时再通过通信获取。:如Adam中的动量(momentum)、方差(variance)。:反向传播后的梯度。:模型的权重。

文章图片
#人工智能#深度学习
白话讲述监督学习、非监督学习、强化学习

你每做一个动作(比如加盐、开大火),都会得到一个“好不好”的反馈信号(奖励或惩罚)。他给你一大堆“菜的照片”(输入)和对应的“菜名标签”(正确答案)。比如聚类,分多少组合适?:用神经网络来近似复杂的“价值表”或“策略”,处理像游戏画面、机器人控制这样的高维输入。:比如把绿色的蔬菜放一堆,红色的肉类放一堆,或者把适合做沙拉的食材和适合炖汤的食材分开。:把相似的数据点分组。:发现数据中的关联规则,比如

#聚类#算法
AI创意在电商广告营销领域的应用

他们负责为AI提供高质量的“种子”和审美范式,并处理AI无法完成的顶级创意需求。

#人工智能
AI类产品经理需要掌握的知识域及进阶路径

作为一名AI产品经理,正站在技术与商业的前沿。这个角色不仅需要传统产品经理的核心能力,更要求深入理解AI技术的边界与可能性。以下是你需要掌握的知识体系及清晰的进阶路径。

#产品经理
浅谈AI的发展对IT行业的影响

技术层:掌握AI工具链(LangChain、MLflow),理解模型局限性(如幻觉问题)。思维层:从“解决问题”转向“定义问题”,利用AI放大创造力。伦理层:建立AI系统的可解释性评估机制,规避算法偏见。AI不是替代IT行业,而是将其推向更高维度的竞争——从“代码实现”升级为“智能设计”。正如Linux之父Linus Torvalds所言:“AI不会取代程序员,但会用AI的程序员会取代不用AI的人

文章图片
#人工智能
浅谈人群扩展(lookalike)模型

Lookalike主要用于广告或者推荐系统中,找到与种子用户相似的人群。常用的算法应该包括协同过滤、基于标签的相似度计算,还有一些机器学习模型,比如逻辑回归、随机森林,以及深度学习的模型,比如DNN或者Embedding方法。这里简单介绍一下 Lookalike 人群扩展(相似人群扩展)中常用算法模型的解析,涵盖原理、数学公式、实现步骤、优缺点及适用场景。

#算法
Deepseek本地部署和网页版本区别

本地部署是指将DeepSeek的模型和服务部署在用户自己的服务器或本地机器上,而网页版则是通过浏览器访问的在线服务。我们接下来将从数据隐私、成本、定制等多方面评估一下本地部署与网页版的区别。现在网上很多文章都是建议大家去做本地部署,我觉得无论是个人还是企业,都要根据自身的需求综合评估后再做决定。return deepseek_web_api.call(request)# 走网页版API。:模型量化

文章图片
#服务器#运维
Deepseek本地部署和网页版本区别

本地部署是指将DeepSeek的模型和服务部署在用户自己的服务器或本地机器上,而网页版则是通过浏览器访问的在线服务。我们接下来将从数据隐私、成本、定制等多方面评估一下本地部署与网页版的区别。现在网上很多文章都是建议大家去做本地部署,我觉得无论是个人还是企业,都要根据自身的需求综合评估后再做决定。return deepseek_web_api.call(request)# 走网页版API。:模型量化

文章图片
#服务器#运维
TensorRT 原理及核心代码示例

TensorRT 是 NVIDIA 推出的高性能,通过等技术,显著提升模型在 GPU 上的推理速度。以下是其核心原理及代码实现。

#人工智能#深度学习#机器学习 +1
    共 25 条
  • 1
  • 2
  • 3
  • 请选择