logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

全面解析模型微调技术

模型微调是连接通用大模型与垂直领域应用的关键技术,通过针对性参数优化使预训练模型适配专业场景需求。其核心应用场景包括医疗诊断、金融分析等高度专业化领域,以及小样本学习、输出规范定制等特殊需求。技术路径分为全参数微调和参数高效微调(PEFT)两类,其中LoRA、QLoRA等PEFT技术因低资源消耗成为主流选择。标准微调流程包含模型选择、数据准备、训练优化等步骤,需根据任务特点选择合适方法。当前技术仍

文章图片
#人工智能#spring#数据库 +3
全面解析模型微调技术

模型微调是连接通用大模型与垂直领域应用的关键技术,通过针对性参数优化使预训练模型适配专业场景需求。其核心应用场景包括医疗诊断、金融分析等高度专业化领域,以及小样本学习、输出规范定制等特殊需求。技术路径分为全参数微调和参数高效微调(PEFT)两类,其中LoRA、QLoRA等PEFT技术因低资源消耗成为主流选择。标准微调流程包含模型选择、数据准备、训练优化等步骤,需根据任务特点选择合适方法。当前技术仍

文章图片
#人工智能#spring#数据库 +3
人人都能懂大语言模型-大语言模型怎么训练

本文介绍了大语言模型训练的两个关键概念:Token和训练流程。Token是将文本转换为模型内部编码的基本单位,通过优化Token词表(如GPT-4使用100256个Token)提高编码效率。大语言模型训练分为三个阶段:预训练(Pretrain)使用海量数据学习语言模式,有监督微调(SFT)通过标注数据训练任务能力,强化学习(RL)利用奖励模型优化输出质量。文章还提供了大模型学习资源,包括路线图、教

文章图片
#语言模型#人工智能#深度学习 +3
人人都能懂大语言模型-大语言模型怎么训练

本文介绍了大语言模型训练的两个关键概念:Token和训练流程。Token是将文本转换为模型内部编码的基本单位,通过优化Token词表(如GPT-4使用100256个Token)提高编码效率。大语言模型训练分为三个阶段:预训练(Pretrain)使用海量数据学习语言模式,有监督微调(SFT)通过标注数据训练任务能力,强化学习(RL)利用奖励模型优化输出质量。文章还提供了大模型学习资源,包括路线图、教

文章图片
#语言模型#人工智能#深度学习 +3
一文了解大模型应用基本概念

本文介绍了大型语言模型(LLM)及其相关技术。LLM是基于海量数据训练的人工智能模型,能够理解和生成人类语言。文章详细解析了LLM的命名规则(如DeepSeek-V3、通义千问2.5等)、核心概念(Token、参数、蒸馏技术、温度参数),并重点介绍了RAG(检索增强生成)技术,该技术通过检索外部知识库提升模型回答的准确性。此外还涵盖了LangChain开发框架、Function Calling功能

文章图片
#开源#人工智能#transformer +1
一文了解大模型应用基本概念

本文介绍了大型语言模型(LLM)及其相关技术。LLM是基于海量数据训练的人工智能模型,能够理解和生成人类语言。文章详细解析了LLM的命名规则(如DeepSeek-V3、通义千问2.5等)、核心概念(Token、参数、蒸馏技术、温度参数),并重点介绍了RAG(检索增强生成)技术,该技术通过检索外部知识库提升模型回答的准确性。此外还涵盖了LangChain开发框架、Function Calling功能

文章图片
#开源#人工智能#transformer +1
Langflow:零基础快速上手AI流程可视化开发工具详解与实战案例

Langflow是一个开源可视化工具,帮助开发者通过拖拽组件快速构建基于大语言模型(LLM)的智能应用。它提供图形化界面,支持主流AI模型(如OpenAI、HuggingFace)和向量数据库,内置API服务器功能,可轻松部署多代理协作系统。核心功能包括可视化编辑器、代码调试、多代理协同工作等,支持本地和云端部署。通过简单配置即可实现复杂功能,如结合Bing搜索API创建智能客服系统,或集成Ast

#人工智能#transformer#深度学习 +2
如何用DeepSeek做数据分析?这套方法超神!

摘要:Deepseek能高效生成准确SQL,大幅提升数据分析师取数效率,但需注意规范数据口径和需求描述。利用Deepseek可快速理解业务逻辑,通过联网搜索获取行业知识,模拟业务场景。在分析思路上,需结合具体数据表结构提问,分步骤拆解问题,Deepseek才能提供更落地的解决方案。关键在于掌握使用技巧:提升取数效率、深入理解业务、构建分析思路,避免成为单纯的数据工具人,实现职业能力升级。

文章图片
#数据分析#人工智能#数据挖掘 +1
大语言模型提示词技术:CoT、ReAct与DSP详解

摘要:CoT、ReAct和DSP三大提示词工程技术正在革新人机协作模式。CoT通过分步推理提升复杂任务的准确性,ReAct结合工具调用实现动态问题解决,DSP则让模型自主规划任务流程。这些技术不仅增强了AI系统的可靠性与可解释性,更推动了可信AI的发展。随着技术进步,自适应提示和多模型协同等创新模式将成为未来方向,而掌握这些核心提示词技术将成为开发者释放大模型潜能的关键。 (150字)

文章图片
#语言模型#人工智能#自然语言处理 +1
AI编程:理解大模型的工作原理

《大型语言模型开发指南》系统介绍了LLM的核心原理与应用方法。主要内容包括:1)LLM工作原理与模型选择策略,强调不同模型适用于不同任务;2)基准测试解读,指出需结合实际需求评估模型能力;3)Cline平台模型选择方法,平衡速度、成本、上下文窗口等关键因素;4)模型提供商路由策略,涵盖直接连接、聚合器和本地部署三种方式。文章还提供了LLM学习资源包,包含经典书籍、行业报告、视频教程等资料,帮助开发

文章图片
#数据库#transformer#深度学习 +2
    共 576 条
  • 1
  • 2
  • 3
  • 58
  • 请选择