weixin_45697036 个人主页

@weixin_45697036

weixin_45697036

2022-06-23 14:58:56 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

【强化学习2--基于策略梯度的方法】

本文全面介绍了基于策略梯度的深度强化学习方法。策略梯度方法适用于连续动作空间问题，直接通过神经网络拟合策略函数。文章着重解释了如何利用策略梯度定理更新策略网络的参数，以最大化预期回报。介绍了REINFORCE算法，该算法通过蒙特卡洛方法估计动作价值函数，并引入状态价值函数作为基线以降低方差。讨论了Actor-Critic方法，该方法结合了策略梯度和值函数更新。进一步，提出了A2C和PPO算法，前者

#动态规划 #机器学习 #人工智能 +2

【机器学习02--模型评估】

本文主要介绍了机器学习中模型的评估方法，包括各种性能指标以及ROC、AUC的编程实现

#机器学习 #人工智能 #深度学习

【机器学习06--贝叶斯分类器】

本章详细解释了贝叶斯分类器和朴素贝叶斯分类器，并对面试中常考的问题进行了总结，相信你定会有所收获，come on ! B!

#机器学习 #人工智能 #深度学习

【多模态大模型】-- BLIP系列

BLIP系列模型在多模态大语言模型领域做出了重要贡献。BLIP通过混合编码器-解码器架构融合检索、分类和生成任务，并创新性地采用自举方式清洗噪声数据。BLIP-2引入Q-Former作为预训练视觉编码器与语言模型的桥接器，通过表示学习和生成学习两阶段训练实现高效对齐。实验证明BLIP-2在多个任务上表现优异，其核心创新在于冻结预训练参数以降低计算成本。BLIP系列模型虽存在架构复杂、任务联合训练等

#人工智能 #语言模型 #学习

【大模型应用】--Agent详解

摘要：基于大语言模型（LLM）的智能体（Agent）是能够感知环境、自主决策、调用工具并持续学习的AI系统，其核心架构包括LLM（决策引擎）、工具调用（API/函数）、动态规划（任务分解与反思）和记忆机制（短期/长期存储）。相比传统AI，智能体具备主动性与多步任务处理能力，应用场景覆盖客服、金融、科研等领域。多智能体系统通过协作分工（如协调者-工作者模式）提升效率，但面临幻觉、安全性和伦理等挑战

#人工智能 #自然语言处理

【大模型01---Flash Attention】

对，就是你想的那样！这是一篇介绍Flash Attention的水文。

#机器学习 #决策树 #人工智能 +3

【大模型02---Megatron-LM】

本节主要讲解大模型训练框架Megatron

#人工智能 #机器学习 #自然语言处理 +1

【大模型应用】--Agent详解

#人工智能 #自然语言处理

【多模态大模型】--BLIP3

BLIP3针对BLIP2的三大问题进行了改进：支持多图像输入、优化损失函数、扩充数据集多样性。其核心架构采用Flamingo的Perceiver Resampler，将视觉token映射为固定数量。创新提出"任意分辨率视觉token采样"方法，通过切分patch和resize处理不同分辨率图像，确保固定长度的图像表示。训练过程分为预训练、指令微调和DPO偏好对齐三阶段。研究重点

#语言模型 #人工智能

【多模态大模型】-- BLIP系列

#人工智能 #语言模型 #学习

到底了