logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

大模型灾难性遗忘是什么?怎么解决的?

3)[7]从另一个角度来约束参数的变化,文中认为参数是一个概率分布,只要在这个分布的核心地带,对于该任务就是可行的,不同的任务对应不同的概率分布,如果能找到两个分布重叠的部分,并将参数约束到这个区域,那么这一参数不就可以对这些任务都有效吗,这类方法被称之为Transfer Techniques法[7]。我想强调的是,深度强化学习披上了强化学习利用机器人与环境交互的数据进行学习的外衣,让我们有种深度

文章图片
#人工智能#机器学习#自然语言处理 +2
大模型推理

信息熵与复杂度:模型在训练时,loss降低,在这个过程中模型追求更低的熵,对于那些复杂度较高、句式不常见的输入/已生成文本,模型更难以预测下一个合适的词,因此更有可能从已有的预测中选择最匹配的词,进而造成重复。贪心解码导致的自我强化效应:greedy decoding策略会基于已有的输入tokens选择下一个概率最大的token,随着重复token的生成,模型会产生概率增强效应(self-rein

文章图片
#人工智能#机器学习#深度学习 +1
大模型如何通过人工指标来评估效果?有哪些常用的人工指标?

一、常用的大模型评价指标常用的大模型评测指标有准确率(Accuracy)、精确率(Precision)、召回率(Recall)、F1分数(F1 Score)、ROUGE、Perplexity, BLEU等等,我们一一来解释这些指标是什么,适用于什么任务,以及这些指标是如何应用在评估任务中的。

文章图片
#自然语言处理#人工智能#机器学习 +1
Agent篇

记忆模块是智能体存储内部日志的关键组成部分,负责存储过去的思考、行动、观察以及与用户的互动。短期记忆关注于当前情境的上下文信息,是短暂且有限的,通常通过上下文窗口限制的学习实现。长期记忆储存智能体的历史行为和思考,通过外部向量存储实现,以便快速检索重要信息。混合记忆-通过整合短期和长期记忆,不仅优化了智能体对当前情境的理解,还加强了对过去经验的利用,从而提高了其长期推理和经验积累的能力。

文章图片
#人工智能#深度学习#自然语言处理 +1
多头注意力机制中的头数如何影响模型性能?如何选择合适的头数?

DeepSeek-V3 的注意力头数量设置为模型层数的两倍(128 个),但考虑到稀疏度 48 已经带来了较强性能,翻倍注意力头数带来的边际收益不足以抵消额外的推理开销,因此 Kimi K2 最终选择64 个注意力头。头多能增强模型表达能力,提高并行运算效率,但存在过拟合风险,并且很多头可能是无效的。头数设置参考qwen,llama等开源模型就行,要么就得自己做实验测试。

文章图片
#transformer#自然语言处理#深度学习 +2
大模型GUI系列论文阅读 DAY1:《基于大型语言模型的图形用户界面智能体:综述》(6.6W 字长文)

大型语言模型(LargeLanguageModels,LLMs)的兴起[8][9],特别是那些增强了多模态能力的模型[10],为GUI自动化带来了颠覆性变化,重新定义了智能体与图形用户界面交互的方式。我们将回顾GUI智能体的发展历史,提供构建这些智能体的分步指南,汇总基本和高级技术,评审与框架、数据和模型相关的重要工具和研究,展示典型应用,并概述未来发展方向。通过这些问题,本综述旨在提供对该领域现

文章图片
#语言模型#人工智能#自然语言处理
RAG篇(RAG的流程)

GraphRAG 不使用非结构化的文本,而是利用知识图谱,利用图结构捕捉数据中的实体、关系及复杂依赖,从而更高效地检索相关信息并生成准确答案。GraphRAG 的一大特色是利用图机器学习算法针对数据集进行语义聚合和层次化分析,因而可以回答一些相对高层级的抽象或总结性问题, 这一点恰好是常规 RAG 系统的短板(例如:用户提问一个问题,需要全局搜索整个数据集,而不是搜索相似性片段,在这种场景下rag

文章图片
#机器学习#人工智能#深度学习 +1
NLP&深度学习 DAY8:GPT系列模型原理详解(GPT1、GPT2、GPT3)【全网最详细】

GPT-2继续沿用了原来在GPT中使用的单向 Transformer 模型,尽可能利用单向Transformer的优势,做一些BERT使用的双向Transformer所做不到的事。那就是通过上文生成下文文本。GPT-2的目标是为了训练一个泛化能力更强的词向量模型,它并没有对GPT-1的网络机构进行过多的结构创新和设计,只是使用了更大的数据集和更大的网络参数。

文章图片
#自然语言处理#深度学习
2024年第六届全球校园人工智能算法精英大赛——【算法挑战赛】钢材表面缺陷检测与分割 比赛复盘

钢材表面缺陷检测在钢铁生产中是确保质量的关键环节,传统的人工检测方式难以满足大 规模工业生产的需求。近年来,基于深度学习的缺陷检测方法因其高效性和准确性受到广泛关 注。然而,现有的深度学习模型如U-Net虽具备较好的分割性能,但由于参数量大、计算复杂 度高,限制了其在实际生产环境中的应用。为此,本文提出了一种基于轻量级U-Net的改进模 型,用于钢材表面缺陷检测。

文章图片
#人工智能
大模型GUI系列论文阅读 DAY1:《基于大型语言模型的图形用户界面智能体:综述》(6.6W 字长文)

大型语言模型(LargeLanguageModels,LLMs)的兴起[8][9],特别是那些增强了多模态能力的模型[10],为GUI自动化带来了颠覆性变化,重新定义了智能体与图形用户界面交互的方式。我们将回顾GUI智能体的发展历史,提供构建这些智能体的分步指南,汇总基本和高级技术,评审与框架、数据和模型相关的重要工具和研究,展示典型应用,并概述未来发展方向。通过这些问题,本综述旨在提供对该领域现

文章图片
#语言模型#人工智能#自然语言处理
    共 21 条
  • 1
  • 2
  • 3
  • 请选择