logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

基于阿里云10分钟微调,让0.6B模型媲美235B模型!

摘要 本文提出了一种通过模型蒸馏技术,在保持任务效果的同时降低推理成本的解决方案。以物流信息抽取任务为例,使用Qwen3-235B大模型生成训练数据后,对Qwen3-0.6B小模型进行微调。方案采用魔搭社区的ms-swift框架简化微调流程,仅需单条命令即可完成。实验结果显示,微调后的小模型准确率从14%提升至98%,且响应速度更快、成本更低。方案详细介绍了数据准备、模型微调、效果验证的全流程,并

文章图片
#阿里云#云计算#算法 +4
自己训练大模型?MiniMind 全流程解析 (二) 监督微调SFT

本文详细解析了MiniMind框架的监督微调(SFT)全流程,主要内容包括: 整体流程概述:从初始化到模型评估的完整训练流程,包括参数解析、模型加载、数据准备、训练循环等关键步骤。 核心技术实现: 对话模板处理:将原始对话转换为ChatML标准格式 损失掩码机制:仅对助手回复部分计算损失 预训练模型加载:支持标准模型和MoE架构切换 专用损失计算:应用损失掩码并保持MoE辅助损失 数据格式规范:采

#深度学习#人工智能#python +2
自己训练大模型?MiniMind 全流程解析 (一) 预训练

MiniMind是一个开源的大语言模型训练框架,提供从预训练到推理的全流程解决方案。本文解析其预训练流程的核心技术:1)采用余弦退火学习率调度平衡收敛与精度;2)混合精度训练结合float16前向计算与float32梯度管理加速训练;3)梯度累积技术突破显存限制;4)基于NCCL的分布式训练实现多GPU并行。框架通过模块化设计(参数解析、数据加载、训练循环等)支持高效训练,并确保实验可复现性(随机

#人工智能#深度学习#神经网络 +2
AiNiee 入门指南:小白也能掌握的AI翻译神器

AiNiee:智能长文本翻译神器 🔹 核心功能:专为游戏/书籍/字幕等长文本设计,支持主流格式如Mtool、EPUB、SRT等 🔹 技术亮点:事件驱动架构+插件系统,支持DeepSeek等API及本地模型 🔹 易用性:拖拽导入智能识别,三层缓存保障断点续传 🔹 特色:思维链翻译、AI术语表优化,突破传统工具限制 快速开始: 1️⃣ 配置API(推荐DeepSeek或本地Sakura模型)

#人工智能#python
太精彩了!YCombinator 的AI编程教程

本文总结了AI辅助开发的系统化方法,包含规划、版本控制、测试、调试等全流程优化策略。核心要点包括:采用Markdown制定结构化计划,通过Git保持代码纯净,优先端到端测试,利用错误信息高效调试。建议使用多AI工具对比输出,复杂功能单独开发原型,选择成熟技术栈降低风险。同时强调DevOps自动化、定期重构和模型更新跟踪,通过模块化设计和清晰边界提高AI协作效率。全文提供了从编码到部署的完整AI协作

#人工智能
太精彩了!YCombinator 的AI编程教程

本文总结了AI辅助开发的系统化方法,包含规划、版本控制、测试、调试等全流程优化策略。核心要点包括:采用Markdown制定结构化计划,通过Git保持代码纯净,优先端到端测试,利用错误信息高效调试。建议使用多AI工具对比输出,复杂功能单独开发原型,选择成熟技术栈降低风险。同时强调DevOps自动化、定期重构和模型更新跟踪,通过模块化设计和清晰边界提高AI协作效率。全文提供了从编码到部署的完整AI协作

#人工智能
「RAG 效能革命」用 Markdown 框架重构知识库:从 “检索混乱” 到 “精度翻倍” 的实战指南

微软AutoGen团队开发的MarkItDown工具是一个轻量级Python工具,专为解决RAG系统中的文档预处理难题而设计。它能将20多种文件格式(包括PPT、PDF、Word等)高效转换为结构化的Markdown格式,保留文档层次结构并过滤冗余样式信息。该工具采用策略模式+工厂模式的模块化设计,支持智能文件识别和优先级转换器系统,可显著提升RAG系统的检索精度和处理效率。用户可通过pip安装或

#人工智能#python
自己训练大模型?MiniMind 全流程解析 (一) 预训练

MiniMind是一个开源的大语言模型训练框架,提供从预训练到推理的全流程解决方案。本文解析其预训练流程的核心技术:1)采用余弦退火学习率调度平衡收敛与精度;2)混合精度训练结合float16前向计算与float32梯度管理加速训练;3)梯度累积技术突破显存限制;4)基于NCCL的分布式训练实现多GPU并行。框架通过模块化设计(参数解析、数据加载、训练循环等)支持高效训练,并确保实验可复现性(随机

#人工智能#深度学习#神经网络 +2
我的大模型应用到底行不行?LLM应用评估工具Ragas完整指南

Ragas是一个专业的大语言模型(LLM)应用评估工具包,提供端到端的解决方案。它能自动生成测试数据,支持多维度评估指标(如准确性、相关性、忠实度等),并与LangChain等主流框架无缝集成。Ragas解决了传统评估方法的主观性、测试数据匮乏等问题,通过数据驱动的方式持续优化LLM应用性能。其核心功能包括智能测试数据生成、批量评估执行、以及生产环境下的性能追踪。开发者可以快速安装并通过Pytho

#人工智能
Agno 多 Agent 协作框架 - 手把手从零开始教程

本教程详细介绍了如何使用Agno框架构建多Agent协作系统,从创建基础问答Agent到组建专业团队。内容分为四个步骤:首先创建配置模型和简单Agent;然后为Agent添加搜索工具;接着创建多个专业Agent(网络搜索专家、新闻分析师、技术顾问);最后组建Team实现Agent协作。每个步骤都提供完整代码示例、运行方法和预期输出,帮助开发者理解Agno框架的工作原理和团队协作机制。通过本教程,读

#python#人工智能
    共 26 条
  • 1
  • 2
  • 3
  • 请选择