logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

聚焦中文核心能力!LLaMA-Factory 驱动 CT-LLM 微调全流程实践

本文探讨了使用LLaMA-Factory微调ChineseTinyLLM(CT-LLM)-2B模型的中文核心能力提升方法。通过整合高质量中文数据集COIG-CQIA和OL-CC,以及英文数据集OpenHermesPreferences,设计了三种中英文数据配比方案。实验采用Qwen2.5-7B进行数据质量评估,使用困惑度指标过滤噪声数据。微调结果显示,中英2:1配比方案在BLEU-4和ROUGE指

#算法#人工智能
榨干H100算力!GLM-4.6V×vLLM 极致推理实战:从9B到106B MoE的全链路优化

不止于“跑通”,更要“极致”.大模型部署的核心,不是能跑就行,而是把硬件潜力发挥到极致。这是一套可直接用于生产环境的部署方案:既能承载 MoE 权重,也能稳住长文本场景,同时让 MoE 的推理性能真正跑出来。这套方案不仅适用于GLM-4.6V,更可迁移到其他VLM模型,为高并发多模态服务提供了可直接落地的参考。如果你也在部署大模型时遇到算力浪费、显存不足等问题,不妨试试这套方案,让你的 H100

#人工智能
大模型训练全流程实战指南工具篇(六)—OCR工具实战指南(以DeepSeek-OCR-2为例)

本文以DeepSeek-OCR-2为例,详解其核心特性、本地部署及vLLM推理实战。并延伸后处理策略,涵盖数据清洗、RAG优化到多模态检索,打通从“读出来”到“用起来”的全链路,为高质量数据集构建提供实战指南。有了OCR工具等统一格式后,接下来数据处理流程的重要工作就是构建数据集了,下篇内容笔者将分享当前通用的数据处理工具EasyDataset, 大家敬请期待~

大模型训练全流程实战指南工具篇(八)——EasyDataset问答数据集生成流程

本篇内容以EasyDataset工具为例,系统介绍了问答对数据集的完整生成流程:从问题生成(支持单条/批量、三种算法)、答案生成(含思维链、多轮对话),到采用“自动化初筛+人工抽检+迭代优化”策略进行质量评估,最后导出Alpaca或ShareGPT标准格式,为模型微调提供高质量数据。到此数据集构建的基本工具指南笔者就介绍完全,下一篇文章开始将正式介绍大模型训练相关工具,大家敬请期待~

#人工智能#算法#机器学习
大模型训练全流程实战指南工具篇(七)——EasyDataset文档处理流程

本文详细介绍了EasyDataset工具在大模型训练数据预处理中的应用。作为专为领域数据集构建设计的工具,EasyDataset实现了从文献解析到数据集构造的全流程闭环,具备智能文献处理、领域标签体系、智能数据生成等核心功能。 文章重点讲解了: 安装配置流程,支持Windows/macOS/Linux系统 文本处理核心步骤: 支持Markdown/PDF/DOCX/TXT格式 提供多种智能分块策略

文章图片
#人工智能#深度学习#机器学习
大模型训练全流程实战指南基础篇(四)——本地部署大模型API调用实战:Python对接OpenAI格式全解析

如今的大模型就像是一个功能强大的“万能API”,能够通过简单的接口调用即可实现诗歌创作、问题解答、代码编写甚至哲学思辨等复杂任务。实现这一切的关键,在于一套标准化的调用方式——即笔者今天要深入介绍的OpenAI格式。OpenAI格式如今已成为绝大多数主流大模型API调用的事实标准,它如同AI领域的“通用语言”或“普通话”,使得不同厂商、不同架构的大模型能够以统一的通信方式与用户交互,极大地降低了开

#python#网络#开发语言
大模型训练全流程实战指南基础篇(二)——大模型文件结构解读与原理解析

本文系统解读了大模型的文件结构与工作原理。首先介绍了大模型研究的常用平台HuggingFace和ModelScope,并以Qwen3-8B为例详细解析了模型文件的组成,包括权重文件(.safetensors)、配置文件(config.json)、分词器文件(tokenizer.json)等。文章深入剖析了大模型生成文本的自回归原理,展示了从输入分词到Token预测的完整流程。通过实战代码演示了模型

#人工智能
CVPR 2024!具备尺度与位置敏感性的红外小目标检测 | 目标检测 |计算机视觉

摘要: 论文《Infrared Small Target Detection with Scale and Location Sensitivity》提出了一种针对红外小目标检测(IRSTD)的新方法,重点解决微小目标在复杂背景中易被淹没的难题。通过设计尺度与位置敏感网络,模型结合多尺度分层融合和位置敏感解码器,显著提升了目标检测精度与定位能力。核心技术包括多尺度特征融合、上下文感知模块及细节增强

文章图片
#计算机视觉#目标检测#人工智能
ECCV 2024!面向领域泛化分割的文本查询驱动掩码Transformer| 语义分割 | 计算机视觉

语义分割模型在训练和测试数据来自同一领域(如晴天)时表现优异,但当遇到未见过的领域(如雨天、雪天)时,性能会因“领域偏移”(Domain Shift)问题而急剧下降。为了解决这一挑战,该论文提出了一种全新的文本查询驱动(Textual query-driven)的分割范式。该模型的核心思想是,不再仅仅依赖像素信息进行学习,而是将分割任务重新构建为一个通过文本查询匹配目标的过程。

文章图片
#transformer#计算机视觉#深度学习
AAAI2025!北理工团队提出FBRT-YOLO:面向实时航拍图像更快更好的目标检测 |计算机视觉|目标检测

论文《FBRT-YOLO: Faster and Better for Real-Time Aerial Image Detection》提出了一种针对航拍图像目标检测的优化方法。针对航拍场景中小目标密集、尺度变化大等挑战,该研究通过轻量化网络设计、增强的多尺度特征融合、专设小目标检测层以及注意力机制等技术,显著提升了检测速度和精度。实验表明,FBRT-YOLO在保持高精度的同时实现了更快的处理速

文章图片
#计算机视觉#目标检测
    共 103 条
  • 1
  • 2
  • 3
  • 11
  • 请选择