logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

强化学习入门(1):概念、Sarsa、Q-Learning、Dyna-Q

强化学习是一种人工智能范式,它让智能体在未知环境中通过试错自我进化,目标是最大化长期回报。其核心机制是基于“状态 - 动作 - 奖励”的闭环:智能体观察当前状态,根据策略选择一个动作,环境会立即返回一个标量奖励并转移到下一个状态。与监督学习不同,强化学习不需要预先提供样本标签,而是让智能体在与环境的动态交互中探索有效路径,同时利用已有经验避免重复无效尝试,平衡“探索”与“利用”是其关键挑战之一。

文章图片
#人工智能
MinerU:最强文档解析多模态大模型

MinerU是一款由OpenDataLab开源的多模态文档智能解析工具链,旨在将PDF等非结构化文档转化为机器可读的结构化数据。MinerU支持多种输出格式(Markdown/LaTeX/HTML/JSON),可处理复杂版式文档,并针对重叠元素设计了智能后处理算法。该工具填补了开源社区在高精度文档理解基础设施方面的空白,为构建高质量大模型语料库提供了工业级解决方案。

文章图片
#开源#人工智能#视觉检测 +2
MeanFlow:何凯明新作,单步去噪图像生成新SOTA

这篇文章介绍了MeanFlow,这是一种新型的一步生成模型框架,用于生成建模。与传统的流匹配方法不同,MeanFlow通过引入平均速度的概念来表征流场,而不是使用瞬时速度。平均速度定义为两个时间步长之间的位移与时间间隔的比值,这一定义使得模型能够在单次函数评估中完成从先验分布到数据分布的转换,显著提高了生成效率。文章详细阐述了MeanFlow模型的理论基础,包括平均速度与瞬时速度之间的关系,以及如

文章图片
#python#开发语言#AIGC +3
Qwen-Image:通义团队新开源超强中文文生图模型(技术报告解读)

Qwen-Image是由阿里巴巴团队开发的200亿参数多模态图像基础模型,在复杂文本渲染和精准图像编辑方面取得突破性进展。该模型采用MMDiT架构,整合了多模态大语言模型Qwen2.5-VL和创新的变分自编码器,通过多阶段训练策略和严格的数据过滤流程,实现了卓越的生成能力。在公开基准测试中,Qwen-Image在文本到图像生成、中文文本渲染、图像编辑等任务上均达到SOTA水平,特别是在中文长文本处

文章图片
#计算机视觉#人工智能#深度学习
百度开源文心一言4.5:论文解读和使用入门

百度ERNIE团队发布ERNIE4.5模型家族,包含10种多模态模型变体,涵盖47B和3B参数的MoE模型及424B总参数模型。该系列采用异构模态结构和模态隔离路由机制,支持跨模态参数共享,同时保持各模态独立性。模型在指令遵循、知识记忆、视觉理解等任务上达到SOTA性能。

文章图片
#百度#开源#人工智能 +1
LLaMA-Factory:无代码微调大模型,小白也能上手(以Qwen3为例,包括lora、dpo、ppo等)

LLaMA Factory是一个功能强大的平台,专注于训练和微调大型语言模型。它支持多种模型和训练方法,涵盖了从预训练到微调的全过程,能够满足不同用户的需求。总的来说,LLaMA Factory是一个功能全面、使用方便的平台,能够为用户提供高效、灵活的模型训练和微调体验。

文章图片
#深度学习#AIGC#自然语言处理
盘古-ultra:不用英伟达GPU,华为发布全新大模型

盘古Ultra是由华为推出的一款拥有1350亿参数的超大稠密语言基础模型,基于昇腾NPU进行训练。该模型针对大规模深度模型训练中的稳定性问题,提出了深度缩放夹心归一化(Depth-scaled Sandwich-Norm)技术。这一技术有效消除了训练过程中的损失峰值,确保了训练的稳定性。盘古Ultra在13.2万亿高质量标记上进行了预训练,并通过监督微调(SFT)和强化学习(RL)进一步增强了推理

文章图片
#深度学习#transformer#人工智能 +2
西瓜书《机器学习》全网最详细解读 第四章:决策树

决策树(decision tree)是一类常见的机器学习方法,是一种基于树结构的监督学习算法,广泛应用于分类和回归任务中。

文章图片
#机器学习#决策树#人工智能 +4
Seedance:字节发布视频生成基础模型新SOTA,能力全面提升

Seedance 1.0 是由字节跳动推出的高性能视频生成基础模型,旨在突破当前视频生成模型在指令遵循、运动合理性与视觉质量平衡方面的瓶颈。该模型通过多源数据整合与精准视频字幕生成,实现了跨多样化场景的全面学习;采用高效的架构设计,支持多镜头生成以及文本到视频和图像到视频任务的联合学习;通过细粒度监督微调和多维度奖励机制的强化学习,显著提升了模型性能;并借助多阶段蒸馏策略和系统级优化,实现了 10

文章图片
#人工智能#计算机视觉#视频生成 +3
盘古-ultra:不用英伟达GPU,华为发布全新大模型

盘古Ultra是由华为推出的一款拥有1350亿参数的超大稠密语言基础模型,基于昇腾NPU进行训练。该模型针对大规模深度模型训练中的稳定性问题,提出了深度缩放夹心归一化(Depth-scaled Sandwich-Norm)技术。这一技术有效消除了训练过程中的损失峰值,确保了训练的稳定性。盘古Ultra在13.2万亿高质量标记上进行了预训练,并通过监督微调(SFT)和强化学习(RL)进一步增强了推理

文章图片
#深度学习#transformer#人工智能 +2
    共 49 条
  • 1
  • 2
  • 3
  • 4
  • 5
  • 请选择