
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
LLaMA Factory是针对LLaMA系列模型的开源微调框架,采用PEFT技术如LoRA、QLoRA等,大幅降低算力需求。它提供多种微调方法、高效数据处理和训练支持,架构清晰,适合垂直领域适配、对话系统构建等场景。即使在消费级显卡上也能高效运行,显著降低大模型微调门槛,让开发者能快速定制专属模型。

随着大模型的不断发展,小参数模型的能力也在逐渐进步,就拿阿里最新开源的qwen3来说,其中有负责多模态的qwen3-vl系列和专为代码优化的qwen3-code系列等,这些不同使用场景中都有开源的小参数模型来方便我们本地部署。

上周是智谱的多模态开源周,从GLM 4.6v到Autoglm...看到官方的博客,第一眼比较吸引我的,不是模型本身,是他们给的一个使用场景 - **图文并排**。上传一份 PDF 论文,它能生成一篇图文混排的解读文章,而且效果非常好。图片位置精准,上下文衔接自然,完全不像是机械拼接的。

人工智能是引领这一轮科技革命和产业变革的战略性技术,具有“头雁”效应,溢出带动性很强。通用人工智能大模型(以下简称“大模型”)作为人工智能从专用化迈向通用化的发展新阶段,是集智能感知、智能分析、智能决策、智能执行等功能于一体的泛在智能技术,通过数据、算力、算法三要素深度融合,实现生产要素优化配置。从生产结构来看,人工智能技术已成为现代工业生产的核心组成部分,能够大幅提高生产效率、优化资源配置、降低

AI Agent工程现状报告显示,超57%企业已将Agent投产,客服与数据分析为主要应用场景。质量是最大挑战,可观测性和评估体系成为标配。多模型策略主导市场,编码Agent领跑日常应用。Agent工程正从新兴概念发展为成熟学科,企业关注点从成本转向让Agent运行良好。

文章详解了大模型微调的三种技术:PT、SFT和DPO,包括它们的工作原理、数据要求和适用场景。文章指出微调成本高、技术门槛高,建议优先考虑提示词工程和RAG等替代方案。只有在特定领域专业知识、特殊输出格式、私有数据深度理解和高性能要求时才考虑微调,并推荐了适合不同技术水平的平台。

pretrain 的全环节大抵如此,我列出来的每个环节我认为都是同等重要的。之前看见有种说法说洗数据是脏简历的工作,恕我不能认同。如果 infra 团队已经帮忙调通了 megatron 的训练代码,那么训练才是真的最没技术含量的工作,改几个参数,然后 bash train.sh,训练挂了就重启,这些工作谁做不来呢?反倒是洗数据时的灵光一现,往往能大大提升模型的效果。因此,“数据篇”也是我笔墨最多的

我们知道 LLM的知识库是通过现有的网络公开的数据作为数据源来训练的,现在公开的很多模型他们基于的训练数据会比我们现在网络上公开的数据早很多,那自然就会产生一种问题,网络上最新的数据和知识 LLM是不知道。还有一种情况就是很多企业他们对自己的数据的安全做的很好,也就是私有化数据(这些数据是有价值的,也是企业的立足之本)。这些数据网络上肯定是不存在,那自然 LLM也是不知道的。

Hugging Face是AI开发的核心生态系统,包含Hub平台和工具链库。本文详解了Transformers库中的模型加载(AutoModel、AutoModelForXXX)、Tokenizer使用(文本处理与编码)以及Datasets库(数据加载、预处理与保存)。通过这些工具,开发者可高效实现从数据处理到模型训练的全流程,是入门大模型开发的必备知识。

本地部署大模型,再构建个人知识库,跑自己的文档、数据等,有很多好处。比如,隐私的财务数据可以借力AI大模型做总结,股票数据实时接入到大模型做数据分析,个人word文档批量读取做总结等。我提出的方案基于LLM大模型+文档检索方法,具有的优势:充分释放大模型能力,因为使用的是文档检索,而不是语义向量所以检索会更加高效,大大提升了回复效率;同时对电脑的性能要求直接降到最低,一般电脑也能玩起来了。你需要做








