logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

qwen模型部署流程

Qwen2.5-72B大模型三卡部署流程摘要:首先创建conda环境并安装vLLM和transformers。推荐手动下载AWQ量化模型(约40GB显存)加速部署。启动服务时需配置关键参数:3张GPU流水线并行(--pipeline-parallel-size 3)、AWQ量化(--quantization awq)、显存利用率0.93(--gpu-memory-utilization)。根据72

#人工智能#语言模型
langchain与langgraph 有什么区别?

LangChain和LangGraph是构建LLM应用的开源框架。LangChain提供模块化组件(模型接口、工具封装、记忆管理等)简化开发,适合快速搭建RAG、简单Agent等场景。LangGraph专注于复杂工作流编排,支持多智能体协作、状态管理和人机交互,适用于生产级系统。两者互补:LangChain提供基础组件,LangGraph负责高级流程控制。当前趋势显示LangGraph正成为复杂A

#人工智能#深度学习
mcp和skills 有什么区别?

MCP协议与KimiSkills构成AI生态的标准化接口与功能实现关系:MCP作为Anthropic开源的"AI界USB-C"协议,通过JSON-RPC2.0实现模型与工具的标准化交互;KimiSkills则是基于MCP构建的5000+即装即用功能模块(如搜索、代码、绘图等),每个Skill都是标准化的MCPServer。该架构解决了AI工具碎片化问题,实现"一次开发

#人工智能
SFT 经验分享

SFT packing指的是在训练sft的过程中,将多个sft数据pack到一个样本内进行训练的方式,这种方式会加快模型训练速度。如果不进行SFT packing,那么对于短文本sft,需要padding到一个batch的最长长度,会浪费很多计算token。优点:充分利用GPU算力。缺点:不利于短文本和多轮对话,一般情况下不建议使用。

文章图片
#前端#数据库#javascript
主动学习和贝叶斯优化 - smartly collect data

1· Least Confident:看到上上图可以理解,LC会通过当前的model计算整个X_pool中最靠近分界线的data,也就是分为两类概率相同/接近的data,即最uncertainty的就是最先选择的。若未达到停止标准,则继续利用查询策略选择需要被标记的样本并进行人工标注,循环第4-5-6步,直到达到停止标准(这个准则可以是迭代次数,也可以是准确率等指标达到设定值例如模型精度超过99%

文章图片
#学习#机器学习#深度学习
MGA 增强数据集

摘要:字节跳动Seed团队提出MGA(Massive Genre-Audience)数据增强方法,通过"体裁-受众"组合重构文本,解决大模型训练中的数据稀缺和重复退化问题。该方法使用轻量级模型生成多样化变体,在保留核心知识的同时扩展数据规模。实验表明,MGA增强的数据集使模型在推理和知识任务上性能提升2.03%-15.47%,并显著缓解重复训练导致的性能下降。该方法已应用于Ea

#人工智能
贝叶斯优化超参数

贝叶斯优化的工作原理是:首先对目标函数的全局行为建立先验知识(通常用高斯过程来表示),然后通过不断地添加样本点观察目标函数在不同输入点的输出,更新这个先验知识,形成后验分布。这个选择的策略通常由所谓的采集函数(Acquisition Function)来定义,比如最常用的期望提升(Expected Improvement),这样,贝叶斯优化不仅可以有效地搜索超参数空间,还能根据已有的知识来引导搜索

文章图片
#机器学习
到底了