
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
本文探讨了使用LLaMA-Factory微调ChineseTinyLLM(CT-LLM)-2B模型的中文核心能力提升方法。通过整合高质量中文数据集COIG-CQIA和OL-CC,以及英文数据集OpenHermesPreferences,设计了三种中英文数据配比方案。实验采用Qwen2.5-7B进行数据质量评估,使用困惑度指标过滤噪声数据。微调结果显示,中英2:1配比方案在BLEU-4和ROUGE指
不止于“跑通”,更要“极致”.大模型部署的核心,不是能跑就行,而是把硬件潜力发挥到极致。这是一套可直接用于生产环境的部署方案:既能承载 MoE 权重,也能稳住长文本场景,同时让 MoE 的推理性能真正跑出来。这套方案不仅适用于GLM-4.6V,更可迁移到其他VLM模型,为高并发多模态服务提供了可直接落地的参考。如果你也在部署大模型时遇到算力浪费、显存不足等问题,不妨试试这套方案,让你的 H100
本文以DeepSeek-OCR-2为例,详解其核心特性、本地部署及vLLM推理实战。并延伸后处理策略,涵盖数据清洗、RAG优化到多模态检索,打通从“读出来”到“用起来”的全链路,为高质量数据集构建提供实战指南。有了OCR工具等统一格式后,接下来数据处理流程的重要工作就是构建数据集了,下篇内容笔者将分享当前通用的数据处理工具EasyDataset, 大家敬请期待~
本篇内容以EasyDataset工具为例,系统介绍了问答对数据集的完整生成流程:从问题生成(支持单条/批量、三种算法)、答案生成(含思维链、多轮对话),到采用“自动化初筛+人工抽检+迭代优化”策略进行质量评估,最后导出Alpaca或ShareGPT标准格式,为模型微调提供高质量数据。到此数据集构建的基本工具指南笔者就介绍完全,下一篇文章开始将正式介绍大模型训练相关工具,大家敬请期待~
本文详细介绍了EasyDataset工具在大模型训练数据预处理中的应用。作为专为领域数据集构建设计的工具,EasyDataset实现了从文献解析到数据集构造的全流程闭环,具备智能文献处理、领域标签体系、智能数据生成等核心功能。 文章重点讲解了: 安装配置流程,支持Windows/macOS/Linux系统 文本处理核心步骤: 支持Markdown/PDF/DOCX/TXT格式 提供多种智能分块策略

如今的大模型就像是一个功能强大的“万能API”,能够通过简单的接口调用即可实现诗歌创作、问题解答、代码编写甚至哲学思辨等复杂任务。实现这一切的关键,在于一套标准化的调用方式——即笔者今天要深入介绍的OpenAI格式。OpenAI格式如今已成为绝大多数主流大模型API调用的事实标准,它如同AI领域的“通用语言”或“普通话”,使得不同厂商、不同架构的大模型能够以统一的通信方式与用户交互,极大地降低了开
本文系统解读了大模型的文件结构与工作原理。首先介绍了大模型研究的常用平台HuggingFace和ModelScope,并以Qwen3-8B为例详细解析了模型文件的组成,包括权重文件(.safetensors)、配置文件(config.json)、分词器文件(tokenizer.json)等。文章深入剖析了大模型生成文本的自回归原理,展示了从输入分词到Token预测的完整流程。通过实战代码演示了模型
摘要: 论文《Infrared Small Target Detection with Scale and Location Sensitivity》提出了一种针对红外小目标检测(IRSTD)的新方法,重点解决微小目标在复杂背景中易被淹没的难题。通过设计尺度与位置敏感网络,模型结合多尺度分层融合和位置敏感解码器,显著提升了目标检测精度与定位能力。核心技术包括多尺度特征融合、上下文感知模块及细节增强

语义分割模型在训练和测试数据来自同一领域(如晴天)时表现优异,但当遇到未见过的领域(如雨天、雪天)时,性能会因“领域偏移”(Domain Shift)问题而急剧下降。为了解决这一挑战,该论文提出了一种全新的文本查询驱动(Textual query-driven)的分割范式。该模型的核心思想是,不再仅仅依赖像素信息进行学习,而是将分割任务重新构建为一个通过文本查询匹配目标的过程。

论文《FBRT-YOLO: Faster and Better for Real-Time Aerial Image Detection》提出了一种针对航拍图像目标检测的优化方法。针对航拍场景中小目标密集、尺度变化大等挑战,该研究通过轻量化网络设计、增强的多尺度特征融合、专设小目标检测层以及注意力机制等技术,显著提升了检测速度和精度。实验表明,FBRT-YOLO在保持高精度的同时实现了更快的处理速








