logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

构建AI智能体:八十八、大模型编辑:从一本百科全书到可修订的活页本

大模型编辑技术为解决传统语言模型知识固化问题提供了创新方案。该技术通过局部修改、内存增强和外部知识库三种方法实现精准知识更新:局部修改直接调整模型权重;内存增强添加外部记忆模块;外部知识库则结合检索机制。实验表明,基于Qwen1.5-0.5B模型的知识库覆盖法能有效实现即时知识更新,在保持模型完整性的同时解决传统微调成本高、耗时长的问题。该方法通过智能路由机制,成功验证了"苹果CEO&q

文章图片
#人工智能
构建AI智能体:八十九、Encoder-only与Decoder-only模型架构:基于ModelScope小模型的实践解析

本文深入探讨了大模型中的Encoder-only和Decoder-only两种主流架构。Encoder-only(如BERT)采用双向注意力机制,擅长文本理解任务,如分类、问答和情感分析,能同时分析整段文本的完整语义。Decoder-only(如GPT)通过因果注意力掩码实现自回归生成,专精于文本创作、对话和代码生成等创造性任务。文章通过具体示例展示了两种架构的技术特点、应用场景和局限性:Enco

文章图片
#人工智能
构建AI智能体:八十九、Encoder-only与Decoder-only模型架构:基于ModelScope小模型的实践解析

本文深入探讨了大模型中的Encoder-only和Decoder-only两种主流架构。Encoder-only(如BERT)采用双向注意力机制,擅长文本理解任务,如分类、问答和情感分析,能同时分析整段文本的完整语义。Decoder-only(如GPT)通过因果注意力掩码实现自回归生成,专精于文本创作、对话和代码生成等创造性任务。文章通过具体示例展示了两种架构的技术特点、应用场景和局限性:Enco

文章图片
#人工智能
构建AI智能体:八十九、Encoder-only与Decoder-only模型架构:基于ModelScope小模型的实践解析

本文深入探讨了大模型中的Encoder-only和Decoder-only两种主流架构。Encoder-only(如BERT)采用双向注意力机制,擅长文本理解任务,如分类、问答和情感分析,能同时分析整段文本的完整语义。Decoder-only(如GPT)通过因果注意力掩码实现自回归生成,专精于文本创作、对话和代码生成等创造性任务。文章通过具体示例展示了两种架构的技术特点、应用场景和局限性:Enco

文章图片
#人工智能
构建AI智能体:八十八、大模型编辑:从一本百科全书到可修订的活页本

大模型编辑技术为解决传统语言模型知识固化问题提供了创新方案。该技术通过局部修改、内存增强和外部知识库三种方法实现精准知识更新:局部修改直接调整模型权重;内存增强添加外部记忆模块;外部知识库则结合检索机制。实验表明,基于Qwen1.5-0.5B模型的知识库覆盖法能有效实现即时知识更新,在保持模型完整性的同时解决传统微调成本高、耗时长的问题。该方法通过智能路由机制,成功验证了"苹果CEO&q

文章图片
#人工智能
构建AI智能体:八十八、大模型编辑:从一本百科全书到可修订的活页本

大模型编辑技术为解决传统语言模型知识固化问题提供了创新方案。该技术通过局部修改、内存增强和外部知识库三种方法实现精准知识更新:局部修改直接调整模型权重;内存增强添加外部记忆模块;外部知识库则结合检索机制。实验表明,基于Qwen1.5-0.5B模型的知识库覆盖法能有效实现即时知识更新,在保持模型完整性的同时解决传统微调成本高、耗时长的问题。该方法通过智能路由机制,成功验证了"苹果CEO&q

文章图片
#人工智能
构建AI智能体:八十七、KM与Chinchilla法则:AI模型发展的两种训练法则完全解析

摘要: 大模型训练中,如何在有限计算预算(C≈6ND)下最优分配模型参数量(N)与训练数据量(D)是关键挑战。KM扩展法则主张“模型优先”,认为增大N的收益高于D(α=0.076<β=0.103),推荐N∝C^0.73、D∝C^0.27。Chinchilla法则则通过实验发现大模型普遍训练不足,提出平衡策略(α=β≈0.38),推荐N∝D∝C^0.5,即在相同预算下减小模型规模并大幅增加数据量,可

文章图片
#人工智能#机器学习#深度学习
构建AI智能体:八十七、KM与Chinchilla法则:AI模型发展的两种训练法则完全解析

摘要: 大模型训练中,如何在有限计算预算(C≈6ND)下最优分配模型参数量(N)与训练数据量(D)是关键挑战。KM扩展法则主张“模型优先”,认为增大N的收益高于D(α=0.076<β=0.103),推荐N∝C^0.73、D∝C^0.27。Chinchilla法则则通过实验发现大模型普遍训练不足,提出平衡策略(α=β≈0.38),推荐N∝D∝C^0.5,即在相同预算下减小模型规模并大幅增加数据量,可

文章图片
#人工智能#机器学习#深度学习
构建AI智能体:八十六、大模型的指令微调与人类对齐:从知识渊博到善解人意

本文探讨了大模型从知识储备到实用助手的进化过程。首先分析了原始预训练模型存在的问题:擅长文本补全但缺乏指令理解能力,可能生成有害或无关内容。然后详细介绍了指令微调技术,通过高质量(指令-输出)数据集教会模型理解并执行翻译、总结、情感分析等任务。进一步阐述了人类对齐技术,包括基于人类反馈的强化学习(RLHF)的三个关键步骤,使模型输出不仅符合指令,更符合人类价值观。最后展示了Qwen模型微调实践,包

文章图片
#深度学习#机器学习#人工智能
构建AI智能体:八十六、大模型的指令微调与人类对齐:从知识渊博到善解人意

本文探讨了大模型从知识储备到实用助手的进化过程。首先分析了原始预训练模型存在的问题:擅长文本补全但缺乏指令理解能力,可能生成有害或无关内容。然后详细介绍了指令微调技术,通过高质量(指令-输出)数据集教会模型理解并执行翻译、总结、情感分析等任务。进一步阐述了人类对齐技术,包括基于人类反馈的强化学习(RLHF)的三个关键步骤,使模型输出不仅符合指令,更符合人类价值观。最后展示了Qwen模型微调实践,包

文章图片
#深度学习#机器学习#人工智能
    共 32 条
  • 1
  • 2
  • 3
  • 4
  • 请选择