minhuan 个人主页

@minhuan

minhuan

2023-01-11 21:54:20 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

构建AI智能体：八十八、大模型编辑：从一本百科全书到可修订的活页本

大模型编辑技术为解决传统语言模型知识固化问题提供了创新方案。该技术通过局部修改、内存增强和外部知识库三种方法实现精准知识更新：局部修改直接调整模型权重；内存增强添加外部记忆模块；外部知识库则结合检索机制。实验表明，基于Qwen1.5-0.5B模型的知识库覆盖法能有效实现即时知识更新，在保持模型完整性的同时解决传统微调成本高、耗时长的问题。该方法通过智能路由机制，成功验证了"苹果CEO&q

#人工智能

构建AI智能体：八十九、Encoder-only与Decoder-only模型架构：基于ModelScope小模型的实践解析

本文深入探讨了大模型中的Encoder-only和Decoder-only两种主流架构。Encoder-only（如BERT）采用双向注意力机制，擅长文本理解任务，如分类、问答和情感分析，能同时分析整段文本的完整语义。Decoder-only（如GPT）通过因果注意力掩码实现自回归生成，专精于文本创作、对话和代码生成等创造性任务。文章通过具体示例展示了两种架构的技术特点、应用场景和局限性：Enco

#人工智能

构建AI智能体：八十九、Encoder-only与Decoder-only模型架构：基于ModelScope小模型的实践解析

#人工智能

构建AI智能体：八十九、Encoder-only与Decoder-only模型架构：基于ModelScope小模型的实践解析

#人工智能

构建AI智能体：八十八、大模型编辑：从一本百科全书到可修订的活页本

#人工智能

构建AI智能体：八十八、大模型编辑：从一本百科全书到可修订的活页本

#人工智能

构建AI智能体：八十七、KM与Chinchilla法则：AI模型发展的两种训练法则完全解析

摘要：大模型训练中，如何在有限计算预算（C≈6ND）下最优分配模型参数量（N）与训练数据量（D）是关键挑战。KM扩展法则主张“模型优先”，认为增大N的收益高于D（α=0.076＜β=0.103），推荐N∝C^0.73、D∝C^0.27。Chinchilla法则则通过实验发现大模型普遍训练不足，提出平衡策略（α=β≈0.38），推荐N∝D∝C^0.5，即在相同预算下减小模型规模并大幅增加数据量，可

#人工智能 #机器学习 #深度学习

构建AI智能体：八十七、KM与Chinchilla法则：AI模型发展的两种训练法则完全解析

#人工智能 #机器学习 #深度学习

构建AI智能体：八十六、大模型的指令微调与人类对齐：从知识渊博到善解人意

本文探讨了大模型从知识储备到实用助手的进化过程。首先分析了原始预训练模型存在的问题：擅长文本补全但缺乏指令理解能力，可能生成有害或无关内容。然后详细介绍了指令微调技术，通过高质量(指令-输出)数据集教会模型理解并执行翻译、总结、情感分析等任务。进一步阐述了人类对齐技术，包括基于人类反馈的强化学习(RLHF)的三个关键步骤，使模型输出不仅符合指令，更符合人类价值观。最后展示了Qwen模型微调实践，包

#深度学习 #机器学习 #人工智能

构建AI智能体：八十六、大模型的指令微调与人类对齐：从知识渊博到善解人意

#深度学习 #机器学习 #人工智能

共 32 条

请选择