logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【多模态模型学习】从零手撕一个Vision Transformer(ViT)模型原理篇

ViT论文摘要: 本文提出Vision Transformer(ViT),首次将纯Transformer架构成功应用于大规模图像识别任务。传统CNN依赖局部卷积操作,难以建模图像全局依赖关系且计算效率受限。ViT创新性地将图像分割为16×16的块(Patch),线性映射为序列化Token后输入标准Transformer编码器。通过引入可学习的[CLS] Token和位置编码,ViT在ImageNe

文章图片
#transformer#深度学习#人工智能
【AIGC行业前沿】2026年2月AIGC行业模型发布以及主要前沿资讯

近期AI领域迎来密集创新,多家科技公司发布最新研究成果。阿里推出编程强化学习模型Qwen-Coder-Qoder,显著提升代码留存率;Kimi与南大合作发布SimpleSeg图像分割技术;阶跃星辰开源高性能Step 3.5 Flash模型,支持复杂Agent任务;智谱发布轻量级OCR模型GLM-OCR,在文档识别领域表现优异。xAI推出Grok Imagine 1.0视频生成模型,字节跳动发布Co

#AIGC#开源
【大语言模型学习】2026年十大LLM训练数据集汇总

本文梳理了2026年十大核心LLM训练数据集,涵盖网络语料、知识库、指令集等类型。重点数据集包括:Common Crawl(多PB级原始网络数据)、C4(750GB清洗英文语料)、RedPajama(1000亿词元复现LLaMA数据)、RefinedWeb(6000亿词元高质量网络文本)和The Pile(825GB多样化综合语料)。这些数据集支持从基础预训练到指令微调的全流程,多数采用开源许可,

#语言模型#学习#人工智能 +1
【大语言模型学习】2026年最适合新手的小型LLM训练项目全指南:从26M到1B,3块钱就能从头训练

2026年小型LLM训练项目指南精选了14个适合不同学习阶段的模型,从入门级的26M参数MiniMind(仅需3元成本)到实用的1B级别模型。推荐学习路径:先通过nanoGPT理解基础架构,再用MiniMind体验全流程训练,最后进阶到TinyLlama等更大模型。特别推荐中文专用方案如baby-llama2-chinese,并提供了项目对比表帮助选择。这些小型LLM训练成本低、速度快,是掌握大模

文章图片
#AIGC
【AIGC面试面经第七期】多模态大模型Qwen-Vl系列面试问题汇总

Qwen-VL系列模型在多模态领域持续创新,其演进路径涵盖视觉编码器优化、位置编码统一、训练范式改进等关键技术。Qwen2-VL引入M-RoPE统一处理文本/图像/视频位置编码,采用三阶段训练(预训练+多任务+指令微调)。Qwen2.5-VL通过绝对坐标提升检测精度,动态FPS采样增强视频理解,并融合SFT与DPO优化。Qwen3-VL进一步创新,提出MRoPE-Interleave和DeepSt

文章图片
#AIGC
【文档解析】一文学懂百度千帆OCR模型细节及本地部署

百度千帆 OCR(Qianfan-OCR) 是百度千帆团队于 2026 年 3 月发布的端到端统一文档智能大模型,主打 “单模型搞定全链路文档处理”,与传统的多阶段OCR流水线(将独立的版面检测、文字识别和语言理解模块串联)不同,千帆-OCR 以4B所谓参数可执行 直接的图像到Markdown转换,并支持广泛的提示驱动任务——从结构化文档解析、表格提取,到图表理解、文档问答和关键信息抽取——全部由

文章图片
#深度学习
【文档解析】一文吃透 MinerU2.5:模型训练细节及本地部署效果测试

MinerU2.5是一个拥有 12亿参数的视觉-语言模型(VLM),专用于文档解析,在保持高计算效率的同时实现了业界领先的准确率。它采用两阶段解析策略:首先在下采样图像上进行高效的全局版面分析,然后在原始分辨率裁剪区域上对文本、公式和表格执行细粒度内容识别。借助一个大规模、多样化的数据引擎支持预训练和微调,MinerU2.5在多个基准测试中持续优于通用模型和领域专用模型,同时保持较低的计算开销。

文章图片
#深度学习
【AIGC行业前沿】2026年3月AIGC行业模型发布以及主要前沿资讯

近期AI领域迎来密集开源与模型更新潮。Cognition发布SWE-1.6预览版,性能提升11%;千问团队开源Qwen3.5系列四款小型模型;阶跃星辰开源Step 3.5 Flash及训练框架;小红书推出FireRed-OCR模型,文档处理准确率达92.94%。此外,通义实验室发布两款语音模型,IQuestLab开源代码模型系列,Jan团队推出轻量级编程助手Jan-Code-4B。OpenClaw

#AIGC
【YOLO】基于yolov5的Android版本目标检测app开发(部署安卓手机)

基于yolov5的Android版本目标检测app开发(部署安卓手机)1、开发环境搭建2、数据集准备3、模型训练4、模型转换5、Androidapp开发6、运行检测7、项目开发中遇到的问题总结

文章图片
#python#人工智能#pytorch +1
【多模态模型学习】从零手撕一个Vision Transformer(ViT)模型原理篇

ViT论文摘要: 本文提出Vision Transformer(ViT),首次将纯Transformer架构成功应用于大规模图像识别任务。传统CNN依赖局部卷积操作,难以建模图像全局依赖关系且计算效率受限。ViT创新性地将图像分割为16×16的块(Patch),线性映射为序列化Token后输入标准Transformer编码器。通过引入可学习的[CLS] Token和位置编码,ViT在ImageNe

文章图片
#transformer#深度学习#人工智能
    共 11 条
  • 1
  • 2
  • 请选择