概述

AI概念扫盲目标不一致,本文试图汇总整理一些大语言模型(LLM)的工程实践、项目介绍、零碎知识点,不太好单独另起一篇。

大模型的主要体现在三个方面:

  • 数据规模大:大模型通常采用自监督学习方法,减少数据标注,降低训练研发成本,而大量的数据又可以提高模型的泛化能力和性能;
  • 参数规模大:随着模型参数规模的不断增大,模型可以更好地捕捉数据中的复杂关系和模式,有望进一步突破现有模型结构的精度局限;
  • 算力需求大:大规模的数据和参数,使得模型无法在单机上运行和计算,要求计算硬件不断进步、AI框架具有分布式并行训练的能力。

参数

几个参数:

  • Temperature:值越小,模型结果越确定,适用于质量保障等任务;值调高,结果更随机,可能带来更多样化或创造性产出,如诗歌生成任务;
  • Top_p:用于控制模型返回结果的确定性,值调低可获得准确事实答案,值调高则响应更多样化,较低值会选择最有信心的响应;
  • Max Length:可控制大模型生成的Token数,防止生成冗长或不相关响应并控制成本;
  • Stop Sequences:阻止模型生成Token的字符串,可控制大模型响应长度和结构;
  • Frequency PenaltyPresence Penalty:对重复Token施加惩罚,前者与Token出现次数成比例,后者对所有重复Token惩罚相同,一般调整其中一个参数即可。

temperaturetop_p很少同时调到很高,因为它们都增加随机性,同时调高可能会让模型失控。推荐做法:

  • 如果希望模型回答准确一致(如写邮件、编程代码):可把temperature调低,同时top_p保持默认(通常是1);
  • 如果希望模型有创意(如写故事、头脑风暴):可把temperature调高,或把top_p调低一点,让模型在更有可能性的词中去跳舞;
  • 通常情况下,两者选其一调节即可。

Test-Time Compute

测试时计算,简称TTC,最早由OpenAI在o1-preview中提出。核心思想:与其在模型的预训练和微调阶段投入大量资源,不如在推理阶段(Reasoning)集中精力进行高级处理。

TTC指当一个AI模型在训练完成后,实际执行任务或生成回应时所需要的计算资源和时间。即,模型在实际使用时的计算需求,而不是在训练阶段的需求。

关键点:

  • 推理过程:当向模型输入问题或提示时,它会处理输入并生成回应。这个处理计算成本就叫做TTC;
  • 推理阶段的扩展:一些先进的AI模型,如OpenAI的o1系列,在推理过程中会根据需要动态增加思考时间。即,它们可以在面对复杂问题时花更多时间思考,从而提高准确性,但也需要消耗更多的计算资源。

通过在推理阶段投入更多计算资源,o1模型能够进行更深入的推理,从而提供更准确、更有深度的回答。o1使用的是一步步思考的方式,也就是CoT方法,最终得出结论。o1模型在解决复杂问题时非常有优势。

DeepSearch

一种高级的网页搜索代理。传统网页搜索代理通常只是用已有的搜索工具来收集信息,然后生成答案,基本上只进行一次搜索。

DeepSearch则在搜索过程中加入推理环节。工作原理是不断地进行搜索→推理→搜索→推理…的循环,直到找到最合适的答案,或达到Token限制为止。

DeepResearch

DeepResearch可看作是DeepSearch的一个典型应用案例。主要目标是自动生成研究报告。用户只需要提供一个主题,DeepResearch就会首先规划出报告的大致章节结构。接着针对每个章节,DeepResearch会利用DeepSearch进行信息搜索和推理。最后借助LLM整理和整合这些信息,最终生成完整的研究报告。

参考DeepResearch(上)

大小模型

大模型和小模型对比

维度 大模型(如GPT-4、LLaMA) 小模型(如Qwen-0.5B、MiniCPM)
参数量 数十亿至万亿级 千万至十亿级(通常<10B)
计算资源 需GPU集群训练/推理(百万美元级) CPU/边缘设备可运行,推理成本极低
能力范围 强于复杂推理、创作、多轮对话等通用任务 专精特定任务(分类、实体识别、关键词抽取),实时响应快
推理速度 慢(需GPU集群,响应秒~分钟级) 快(CPU/边缘设备可运行,响应毫秒级)
部署场景 云端服务器、高性能计算中心 手机/IoT设备、边缘端(如工业传感器)
数据依赖 需海量无标注数据训练 少量标注数据即可微调,适应小数据集

大模型主导场景

  • 复杂认知任务:科研分析、金融报告生成、跨文档语义理解。
  • 多模态生成:图文创作、代码生成(需深层语义理解)。
  • 知识密集型问答:医疗诊断支持、法律咨询(依赖大规模知识库)。

小模型主导场景

  • 边缘计算:智能家居指令识别、工业设备故障检测(低延迟需求)。
  • 高频简单任务:客服FAQ匹配、快递单信息提取(Qwen-0.5B微调即可实现)
  • 隐私敏感场景:本地数据处理(如医疗记录分析,避免云端传输)。

协同推理:实际项目中大模型和小模型有以下几种结合策略:

  1. 大模型作为指挥官,小模型作为执行层
    工作流:用户输入→大模型(任务理解/拆解)→小模型集群(执行子任务)→大模型(结果整合)
    案例:大模型解析用户意图,拆解为“订单查询+情感分析”两个子任务;小模型1(NER模型)提取订单号→小模型2(情感分类)判断用户情绪;大模型综合结果生成回复。
    智能客服系统:节省成本:避免全程调用大模型,推理成本降低50%+。
  2. 大模型生成训练数据,小模型落地部署
    用大模型自动标注数据(如对无标签文本生成情感标签);
    人工校验部分数据;
    用小模型微调训练,部署到边缘设备。
    优势:解决小模型标注数据不足的问题;
    医疗领域案例:用GPT-4标注医学文献实体,训练轻量模型部署到医院本地服务器。
  3. 任务路由与级联推理:大模型做复杂任务,小模型处理高频简单任务
    路由机制:前置小模型判断任务复杂度,简单任务直接处理,复杂任务移交大模型。
    优势:节省90%大模型调用成本,响应速度提升3倍。
    效果:
    • 90%高频简单请求由小模型处理,成本接近纯小模型方案;
    • 10%复杂请求保障体验,整体效果媲美纯大模型。
  4. 知识蒸馏与模型压缩:大模型压缩为小模型
    机制:将大模型输出作为“教师信号”,通过蒸馏训练小模型(学生模型),传递推理能力。
    任务相关蒸馏:针对业务数据微调后蒸馏,精度高(如百度ERNIE的渐进式蒸馏)。
    任务无关蒸馏:预训练阶段蒸馏(如MiniLM),产出通用小模型。
    典型场景:
    将GPT-4的文本摘要能力蒸馏到T5-small模型,体积缩小100倍,速度提升20倍,保留80%+效果。
    效果:百度实验显示,4层蒸馏模型比BERT-base快9.4倍,精度损失仅1.6%。
  5. 反向蒸馏与小模型反哺
    机制:训练初期用小模型指导大模型,加速收敛。
    样本价值筛选:基于小模型Loss差值选择高价值样本训练大模型,减少冗余计算。
    逻辑:大模型Loss>小模型Loss→保留样本;大模型Loss<小模型Loss→丢弃。
    效果:百度实验中训练步数减少30%,最终精度提升1.2%。
  6. 权值共享与联合训练
    机制:共享底层特征提取层(如Transformer底层),高层独立适配任务。
    案例:CascadeBERT通过级联不同规模模型,在GPU上实现4倍加速且精度提升15%。
  7. 三重引擎架构(大模型+小模型+知识库)
    机制:大模型处理泛化能力,小模型实时校验输出,修正大模型幻觉,知识库提供领域知识校准。
    通过动态协同策略,企业可在90%场景用小模型覆盖成本,同时保留大模型应对10%复杂需求,实现效能最大化。

大小模型结合的关键考量

  1. 延迟与吞吐量平衡
    对实时性要求高的场景(如实时翻译),用小模型或蒸馏模型;
    允许异步处理时(如报告生成),用大模型。
  2. 成本控制
    成本敏感→蒸馏小模型(如Qwen-0.5B微调)
  3. 隐私与安全
    敏感数据(如金融/医疗)优先用小模型本地部署;
    非敏感任务再用大模型API。
  4. 模型监控
    设置Fallback机制:当小模型置信度<阈值时,自动转交大模型处理
  5. 何时不需要结合?
    任务极其简单(如垃圾邮件过滤)→仅需小模型;
    任务极度复杂(如科研级代码生成)→直接使用大模型;
    资源无限制且追求极致效果→纯大模型方案。

智能体/工作流平台

对比项 FastGPT Dify Coze MaxKB
架构模式 微服务架构(Node.js+React) BaaS架构(Dataset-LLM-App) 云原生架构(WebAssembly+MLaaS) 企业知识管理
核心技术 DAG可视化Flow Engine,混合索引(关键词+向量) OneAPI协议,Celery异步任务处理 NLU引擎、状态机管理、WebSocket插件热加载 多模型集成、混合检索、模块化设计
部署方式 Docker Compose私有化部署 Kubernetes水平扩展 仅提供云服务 私有化部署、API开放对接
模型支持 LoRA微调,OpenAI兼容API OneAPI、LiteLLM 自研API网关 开源+商用模型兼容
场景特点 深度定制化,自建模型 快速迭代,多模型切换 电商图像理解、高并发 企业知识管理、精准问答
工作流实现 JSON Schema,Trace调试 Blockly低代码,Swagger API文档 状态图对话流管理 可视化知识流程自动化管理
特殊优势 Python代码节点灵活注入 LLM缓存,节省Token 快速多轮对话,缺乏深度调试 企业流程自动化与内容管理
知识库 Elasticsearch+FAISS混合索引 Pinecone向量数据库 自研分布式索引 多数据源统一接入
知识库优势 查询优化,私有部署灵活 增量更新,适合运营 电商结构化数据精准抽取 权限精细化,企业级知识库
生态 开源社区活跃 云市场模板丰富 绑定字节跳动生态 企业服务体系完善
开发者支持 企业深度定制,商业支持有限 快速商业应用落地 直播互动、内容创作者变现 强大的客户支持,定制化服务
特性维度 N8N Dify.ai FastGPT(labring/FastGPT) MaxKB RAGFlow
核心目标/主要关注点 工作流自动化,连接应用 LLM应用开发与运营(BaaS,LLMOps) 基于知识库的RAG问答系统,可视化AI工作流 企业级AI助手,RAG智能问答,MCP工具调用 深度文档理解的RAG引擎,真实引用问答
主要AI能力 AI节点,AIAgent,LLM支持,LangChain,向量库(RAG) LLM支持,RAG引擎,AIAgent框架,知识库 强RAG,知识库,可视化AI工作流,AIAgent构建 强RAG引擎,Agent工作流(MCP工具),LLM支持,多模态 深度文档理解RAG,LLM支持,知识图谱,Agent推理
RAG专注度与复杂性 作为工作流组件,可集成向量库 高质量RAG引擎,应用开发组件之一 核心能力,自动化数据预处理,可视化RAG工作流 开箱即用RAG问答,自动化文本处理 核心引擎,深度文档理解,复杂格式处理,高级RAG配置
工作流引擎 是,可视化节点编辑器,通用性强 是,低代码工作流,偏向AI应用编排 是,可视化AI工作流,专注于RAG和Agent逻辑 是,Agent工作流引擎,支持函数库和MCP工具 否(本身是RAG引擎,但可通过Agent/MCP集成到工作流)
Agent框架 是,多种Agent类型(对话式,工具等) 是,灵活的AIAgent框架 是,AIAgent构建平台,通过工作流实现 是,Agent工作流,MCP工具调用 是(通过MCP服务器支持Agent交互,DeepResearch功能)
LLM支持 广泛(Anthropic,OpenAI,Ollama等),可配置 主流LLM,可配置 兼容OpenAIAPI的模型,可配置 广泛(私有和公有模型如OpenAI,Claude,Llama),模型无关 广泛,支持本地部署(Ollama),可配置
开源许可 Fair-code(SustainableUseLicense) Apache2.0(含附加条件) FastGPT开源许可证(限制SaaS商用) GPL-3.0 ApacheLicense2.0
商业模式/定价模型 云托管(Starter,Pro,Enterprise),按执行次数/工作流;自托管社区版免费 DifyCloud(Sandbox,Pro,Team,Enterprise),按消息额度/成员数;自托管开源版免费 开源免费;商业版提供Sealos托管和自托管支持服务 开源免费;专业版(Pro)年费,自托管,提供增强功能和支持 开源免费;第三方提供商业托管(如Azure,Elest.io)
目标用户 开发者,企业,公民自动化者 初创公司,企业,AI爱好者,开发者 开发者,构建AI问答系统的团队 企业(智能客服,内部知识库) 开发者,研究人员,需要高保真RAG的组织
主要应用场景 业务流程自动化,数据集成,AI增强工具 AI应用原型,LLM增强现有应用,内部LLM网关 客户服务机器人,内部知识库,领域AI助手 智能客服,企业内部知识库,学术研究,教育工具 AI聊天助手,复杂文档知识库问答,法律/医疗信息检索
独特销售主张(USPs) 灵活工作流,广泛集成,Fair-code 全面生产就绪方案,数据控制,任何模型可部署类AssistantsAPI能力 开箱即用RAG,可视化AI工作流,自动化数据预处理 开箱即用RAG问答,MCP工具调用,零代码集成,模型无关,多模态 深度文档理解,真实引用问答,复杂数据处理,高级RAG配置
用户界面类型 可视化节点编辑器 直观WebGUI,低代码 可视化工作流编辑器,WebGUI WebGUI(Vue.js) WebGUI
集成能力 广泛节点库,API RESTfulAPI,主流LLM集成,扩展模块 OpenAI对齐API,可集成Discord/Slack等 零代码集成第三方系统,Pro版OpenAPI HTTP/PythonAPI,主流LLM集成,本地LLM部署
定制化/可扩展性 自定义节点,API 插件开发,模型配置 自定义文件读取/分块服务(路线图),工具模块 工作流引擎,函数库,Pro版OpenAPI 可配置Embedding/分块/Prompt,API
数据处理与知识库特性 数据转换节点,可连接向量库 知识库模块,支持多种LLM 多种文件格式导入(PDF,DOCX,MD,URL),自动向量化/QA切分,PGVector/Milvus支持 文档上传/爬取,自动文本切分/向量化,支持多种文件格式,pgvector支持 多种复杂文件格式(PDF,DOCX,PPT,图像),模板化分块,手动干预,Elasticsearch/Infinity

MaxKB/Dify的优势与劣势

  • 优势
    • 大模型接入灵活性:提供多种大模型接入方式,支持多种API接口,使得开发者可以根据需求灵活选择和切换模型,这对于需要高性能模型的应用场景尤为重要;
    • 强大的Chat功能:Chat功能不仅支持多轮对话,还能通过智能推荐和上下文理解提升用户体验,适用于需要复杂交互的场景;
    • 丰富的知识库支持:内置知识库管理系统,支持多种数据格式的导入和导出,便于用户管理和利用知识资源;
    • 高效的Workflow设计:Workflow设计简洁直观,支持拖拽式操作,使得非技术人员也能快速上手,大大降低使用门槛;
    • Prompt IDE工具:让开发者可更直观地调试和优化提示词,提升开发效率。
  • 劣势
    • 学习曲线:虽然界面设计较为友好,但对于初学者来说,仍需要一定时间来熟悉其工作流程和功能;
    • 社区支持:相较于一些成熟的开发平台,社区活跃度和资源丰富度还有待提升,这可能会影响到开发者在遇到问题时的解决速度;
    • 定制化程度:虽然Dify提供丰富的功能,但在某些高度定制化的需求上,可能还需要进一步的开发和调整。

FastGPT/RagFlow的优势与劣势

  • 优势
    • Agent智能体:Agent智能体功能强大,能够自动执行复杂任务,减少人工干预的需求,适用于需要自动化处理大量任务的场景;
    • LLMOps支持:使得开发者可以更方便地进行模型训练、优化和部署,这对于AI模型的持续迭代和优化至关重要;
    • 后端即服务:提供后端即服务的功能,简化后端开发流程,使得开发者可更专注于前端和业务逻辑的开发;
    • 强大的RAG引擎:RAG引擎能够高效地处理和检索大量数据,适用于需要快速响应和高吞吐量的应用场景;
  • 劣势
    • 功能复杂性:FastGPT的功能较为复杂,可能需要较长时间来掌握其使用方法和技巧;
    • 部署难度:相较于一些轻量级的开发平台,FastGPT的部署过程可能更为复杂,需要一定的技术背景和经验;
    • 用户界面:虽然FastGPT的功能强大,但其用户界面可能不如一些竞争对手直观和友好,这可能会影响到用户的使用体验;

技术选型建议

  • 企业深度定制场景(如金融、医疗知识库):FastGPT
  • 跨境电商、多语言客服:Dify
  • 高并发对话(电商导购、直播互动):Coze
  • 企业知识管理与精准问答:MaxKB

MaxKB

Max Knowledge Base,一款基于LLM的开源知识库问答系统,旨在成为企业的最强大脑。它能够帮助企业高效地管理知识,并提供智能问答功能。想象一下,你有一个虚拟助手,可以回答各种关于公司内部知识的问题,无论是政策、流程,还是技术文档,MaxKB都能快速准确地给出答案:比如公司内网如何访问、如何提交视觉设计需求等。

官网

特性:

  • 开箱即用:支持直接上传文档、自动爬取在线文档,支持文本自动拆分、向量化、RAG,智能问答交互体验好;
  • 无缝嵌入:支持零编码快速嵌入到第三方业务系统,让已有系统快速拥有智能问答能力,提高用户满意度;
  • 灵活编排:内置强大的工作流引擎,支持编排AI工作流程,满足复杂业务场景下的需求;
  • 模型中立:支持对接各种大语言模型,包括本地私有大模型、国内/外公共大模型。

Dify

参考Dify理论+部署+实战

FastGPT

一个功能强大的平台,专注于知识库训练和自动化工作流程的编排。提供一个简单易用的可视化界面,支持自动数据预处理和基于Flow模块的工作流编排。支持创建RAG系统,提供自动化工作流程等功能,使得构建和使用RAG系统变得简单,无需编写复杂代码。

官方GitHub

能力

  • 专属AI客服:通过导入文档或已有问答对进行训练,让AI模型能根据你的文档以交互式对话方式回答问题。
    • 多库复用,混用
    • chunk记录修改和删除
    • 源文件存储
    • 支持手动输入,直接分段,QA拆分导入
    • 支持txt,md,html,pdf,docx,pptx,csv,xlsx,有需要更多可PR File Loader
    • 支持URL读取、CSV批量导入
    • 混合检索和重排
  • 简单易用的可视化界面:FastGPT采用直观的可视化界面设计,为各种应用场景提供丰富实用的功能。通过简洁易懂的操作步骤,可以轻松完成AI客服的创建和训练流程。
  • 自动数据预处理:提供手动输入、直接分段、LLM自动处理和CSV等多种数据导入途径,其中直接分段支持通过PDF、WORD、Markdown和CSV文档内容作为上下文。FastGPT会自动对文本数据进行预处理、向量化和QA分割,节省手动训练时间,提升效能。
  • 工作流编排:基于Flow模块的工作流编排,可以帮助你设计更加复杂的问答流程。例如查询数据库、查询库存、预约实验室等。
    • 提供简易模式,无需操作编排
    • 工作流编排
    • 工具调用
    • 插件:工作流封装能力
    • Code sandbox
  • 强大的API集成:FastGPT对外的API接口对齐OpenAI官方接口,可直接接入现有的GPT应用,也可以轻松集成到企业微信、公众号、飞书等平台。

n8n

开源工作流自动化工具,用户可通过可视化的节点界面创建、管理复杂的自动化流程,灵活对接各类应用程序、API及服务,成为Zapier等商业工具的重要替代品。参考n8n、Workflow实战

Coze

由字节跳动推出,主打低门槛、强对话体验,适合C端用户常用的对话类应用场景,如客服和语音助手。该平台功能全面,涵盖了插件系统、记忆库、工作流等关键功能,并且支持用户自定义知识库和插件。

即便是编程新手也能轻松构建机器人,并将其快速部署到不同的平台上。平台支持多Agent模式,用户可以创建多个针对不同任务的单个Agent,并进行集中管理。

优势:

  • 卓越对话体验:Coze在语音识别、对话流畅性方面表现尤为突出,能够为用户带来非常自然的互动体验;
  • 高精度语音识别与生成:无论是语音输入还是语音输出,Coze都能提供高精度的语音识别,极大提升用户体验;
  • 插件与生态优势:内置多领域插件(如电商、客服),依托字节技术资源,国内生态支持强大;
  • 人性化界面:平台界面简洁、易用,对小白非常友好,创建流程简单流畅,学习成本较低~

劣势:

  • 定制化不足:主要面向标准化Bot开发,复杂任务扩展性较弱,且仅支持云端部署。

适用场景:智能客服、语音助手、社交媒体聊天机器人等注重交互体验的C端应用。

LangChain

在这里插入图片描述

Langchain-Chatchat

GitHub
项目支持市面上主流的开源LLM、Embedding模型与向量数据库,可实现全部使用开源模型离线私有部署。也支持OpenAI GPT API的调用,并将在后续持续扩充对各类模型及模型API的接入。

原理

处理过程:
加载文件->读取文本->文本分割->文本向量化->问句向量化->在文本向量中匹配出与问句向量最相似的topK个->匹配出的文本作为上下文和问题一起添加到prompt中->提交给LLM生成回答。

Anything-LLM

一个全栈应用程序,您可以使用现成的商业大语言模型或流行的开源大语言模型,再结合向量数据库解决方案构建一个私有ChatGPT,不再受制于人:您可以本地运行,也可以远程托管,并能够与您提供的任何文档智能聊天。

AnythingLLM将您的文档划分为称为workspaces的对象。工作区的功能类似于线程,同时增加文档的容器化,工作区可共享文档,但工作区之间的内容不会互相干扰或污染,因此您可以保持每个工作区的上下文清晰。

官方GitHub

特性

  • 多用户实例支持和权限管理;
  • 工作区内的智能体Agent(浏览网页、运行代码等);
  • 为您的网站定制的可嵌入聊天窗口;
  • 支持多种文档类型,PDF、TXT、DOCX等;
  • 通过简单的用户界面管理向量数据库中的文档;
  • 两种对话模式:聊天和查询。聊天模式保留先前的对话记录。查询模式则是是针对您的文档做简单问答;
  • 聊天中会提供所引用的相应文档内容;
  • 100%云部署就绪;
  • 部署你自己的LLM模型;
  • 管理超大文档时高效低耗。只需要一次就可嵌入一个庞大的文档或文字记录,比其他文档聊天机器人解决方案节省90%成本;
  • 全套开发人员API,用于自定义集成。

支持组件:

  • LLM:包括任何开源的llama.cpp兼容模型、LocalAi等;
  • 嵌入模型:AnythingLLM原生嵌入器、OpenAI等;
  • 向量数据库:LanceDB(默认)、Pinecone、Chroma、Weaviate和QDrant。

技术概览

  • 整个项目设计为单线程结构,主要由三部分组成:收集器、前端和服务器;
  • Collector:Python工具,可快速将在线资源或本地文档转换为LLM可用格式;
  • Frontend:ViteJS+React前端,用于创建和管理LLM可使用的所有内容;
  • Server:NodeJS+Express服务器,处理所有向量数据库管理和LLM交互。

AWS AI Agent

参考,炎黄盈动公司自主研发的企业级AI应用搭建平台。支持快速构建高效的企业级AI应用的构建、测试、部署、运营和治理,并灵活应对不同业务场景。还支持智能体对话、AI工作流对话和嵌入交互三种模式的自由组合,可嵌入也可独立使用,通过对话+技能+编排+知识+行动的模块式组合,接入企业组织权限、系统和数据,探索AI时代10x生产力。

RAG

参考:

RagFlow

一款基于深度文档理解构建的开源RAG引擎,可为各种规模的企业及个人提供一套精简的RAG工作流程,结合LLMs针对用户各类不同的复杂格式数据提供可靠的问答以及有理有据的引用。

T2S

大模型的火热,让Text2SQL又焕发出一次生命力,参考Text2SQL、ChatBI简介

参考

Logo

更多推荐