logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

一文搞懂强化学习的基础知识!

强化学习是一种通过与环境交互学习最优决策策略的机器学习方法,其核心是马尔可夫决策过程(MDP)框架。MDP由状态空间、动作空间、状态转移概率和奖励函数组成,通过动态规划方法如值迭代求解最优策略。本文以网格世界为例,演示了如何使用值迭代算法计算状态价值函数并导出最优策略,展示了强化学习在序列决策问题中的应用价值。该框架为机器人控制、游戏AI等实际问题提供了理论基础和解决方案。

文章图片
#机器学习#人工智能
万字长文!搞懂机器学习中的分类|回归|聚类任务都有哪些常用的评估指标!

本文系统介绍了机器学习中不同任务的评估指标。分类任务使用准确率、精确率、召回率、F1值和ROC-AUC等指标;回归任务采用均方误差(MSE)、平均绝对误差(MAE)和决定系数(R²);聚类任务则使用轮廓系数、归一化互信息(NMI)和调整兰德指数(ARI)。通过实例分析,详细展示了这些指标的计算方法和适用场景。合理选择评估指标能全面反映模型性能,为模型优化提供依据。

文章图片
#机器学习#分类#回归
LongCat-Flash:美团出手,国产卡上跑出的「闪电级」大模型

最近,美团开源的 LongCat-Flash 彻底炸了 AI 圈。一方面,它用 国产算力 完成了一个 5600 亿参数的大模型训练;另一方面,它用一系列极具工程狠劲的设计,解决了很多 DeepSeek 一直头疼的系统级瓶颈。LongCat-Flash 可以说是一次真正懂大模型训练痛点的人干出来的技术工程奇迹。

文章图片
Agent2Agent 协议:让智能体真正学会“对话”

在过去几年,人工智能的发展让单个智能体已经能完成越来越复杂的任务,比如写文章、做数据分析、甚至协助编程。但当任务变得更复杂、需要多个智能体分工协作时,我们就会遇到一个问题:不同智能体之间怎么有效沟通?如果每个智能体各说各话,就像一个人说中文、一个说英文,合作就会非常困难。这时候,一套统一的通信标准就显得至关重要——这就是今天要介绍的 Agent2Agent 协议。

文章图片
#人工智能
一文搞懂RAG的切分策略

《RAG系统文档切分策略详解》介绍了构建检索增强生成(RAG)系统的5种关键文档切分方法:1)固定大小切分简单但易破坏语义;2)语义切分利用NLP技术保持上下文连贯性;3)递归切分结合固定长度与语义结构;4)基于文档结构的切分利用格式标记;5)基于LLM的智能切分精度高但成本大。文章强调实际应用中需混合策略,并推荐可视化工具ChunkViz辅助理解。该系列持续更新于GitHub项目LLMHub,涵

文章图片
#深度学习#人工智能
面试官:大模型中的幻觉本质原因是什么?如何通过训练或推理手段抑制?

面试官:你觉得大模型的幻觉(Hallucination)是怎么产生的?能不能从原理上讲讲?那我们又该如何去抑制?别小看这问题,几乎所有大模型都被幻觉困扰——从 ChatGPT 到多模态模型,没有一个能逃得了。

文章图片
Kimi Linear——有望替代全注意力的全新注意力架构

Kimi最近提出了Kimi Linear,这是一种混合线性注意力(Hybrid Linear Attention)架构。它首次在公平比较中,于短上下文、长上下文和强化学习(RL)等多种场景下,全面超越了全注意力(Full Attention)架构。

文章图片
#架构#人工智能
LLaMA 3架构解析

继 LLaMA 1 的“小而强”、LLaMA 2 的“对齐进化”之后,LLaMA 3 带着更大规模的数据、更强的推理能力以及完全开放的商用许可横空出世。Meta 声称:LLaMA 3-70B 在多个任务中已逼近甚至超越 GPT-3.5,并将在未来挑战 GPT-4 的王座。

文章图片
#语言模型#人工智能#AI
AI训练要的数据这么多,怎么存?

在大模型时代,AI 的训练与推理已经不再是单纯的算力问题。随着模型参数规模进入百亿级、数据量级扩展到 TB~PB,数据管线与存储架构往往成为影响训练速度的决定性因素。算力再强,如果数据加载跟不上,也会出现 GPU 空闲等待 I/O 的情况,训练效率大打折扣。

文章图片
#人工智能#语言模型#AI
Function Calling:让语言模型调用外部功能

在现代 AI 系统中,语言模型不仅可以生成文本,还可以直接调用外部功能或服务。这种机制被称为 Function Calling。Function Calling 的原理、工作流程是什么?与 MCP(模型上下文协议)的区别又是什么呢?

文章图片
#语言模型#人工智能#自然语言处理
    共 63 条
  • 1
  • 2
  • 3
  • 7
  • 请选择