logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

OpenBayes 一周速览 | Wan 2.1 文/图生视频秒上手,精度清晰度双飞跃;解锁视觉+语言新高度!Janus-Pro-7B 模型一键启动

MCTS 中文文本简化数据集* Big-Math 强化学习数学数据集* HAR 15 种人体动作识别数据集* DexGraspVLA 机器人抓握数据集* Fortune Telling 中文风水占卜数据集* QwQ-32B* 一键部署 YOLOv12* 一键部署 Janus-Pro-7B* Wan 2.1 文/图生视频双杀 Demo。

文章图片
#人工智能#DeepSeek#视频生成 +1
OpenBayes 一周速览|Meta最大视频分割数据集SA-V上线;9.1k星!腾讯文生图再升级

这个数据集的发布,加上 SAM 2 模型的开源,为研究者和开发者提供了强大的工具,以探索视频编辑、混合现实、机器人技术、自动驾驶和视频内容理解等多个领域的新应用和创新。该数据集包含 3,214 张大小为 1,280×720 的模糊图像,其中 2,103 张是训练图像,1,111 张是测试图像。该数据集是用于检测跌倒行为的图像数据集,包含图像文件夹和标签文件夹。该数据集包含了大量的问答对数据,每个问

文章图片
#人工智能#深度学习#机器学习 +1
OpenBayes 教程上新丨获 CVPR 2025 最佳论文,通用 3D 视觉模型 VGGT 推理速度可达秒级

当状态变为「运行中」后,点击「API 地址」旁边的跳转箭头,即可跳转至 Demo 页面。根据官方数据,CVPR 2025 共收到了超 4 万名作者提交的 13,008 篇论文,相较去年的投稿数量增长了 13%,大会最终接收论文 2,872 篇,整体接受率约为 22.1%。3.选择「NVIDIA RTX 4090」以及「PyTorch」镜像,OpenBayes 平台提供了 4 种计费方式,大家可以按

文章图片
#人工智能#深度学习#机器学习
OpenBayes 一周速览|IC-Light 图片打光神器一键启动!Tecnalia 电子设备废物高光谱数据集上线,提高电子废物回收准确性

这个模型特别适合创造具有经典卡通美学的异想天开和风格化的插图,其生成的图像具有手绘的质感、流畅的笔触,以及柔和的色彩。Tecnalia 高光谱数据集包含来自电机和电子设备废物 (WEEE) 的不同有色金属部分,如铜、黄铜、铝、不锈钢和白铜,图像在光谱范围 [415.05 纳米,1008.10 纳米] 内包含 76 个均匀分布的波长。该数据集记录了 10 名测试者在被试收听和想象音乐片段时记录的脑电

文章图片
#人工智能#机器学习#开源 +2
解决视频模型痛点,TurboDiffusion 高效视频扩散生成系统;Google Streetview 涵盖多个国家的街景图像数据集

PaddleOCR-VL-1.5 是 PaddlePaddle 团队发布的 PaddleOCR 系列的多模态 OCR 模型之一,面向复杂文档场景(票据、合同、论文、扫描件等)提供更强的文字识别与版面理解能力。视频提供了多模态的物理标注,包括 RGB、深度和光流信息,支持多机器人和多任务的多样性,覆盖不同的机器人类型、场景和动作技能。THINGS-EEG 是一个面向物体认知研究的脑电图数据集,记录了

文章图片
#人工智能#机器学习#视频生成 +1
OCR教程汇总丨DeepSeek/百度飞桨/华中科大等开源创新技术,实现OCR高精度、本地化部署

基于视觉-语言预训练框架的系统,如 OpenAI 推出的 GPT-4V(Vision 版本),以及 Google 的 Gemini 系列,都展示了在文档理解、表格解析、复杂版式分析方面的强大能力。不同于传统的级联式 OCR 模型(检测 + 识别),LightOnOCR-2-1B 强调端到端处理能力,能够直接将像素映射为结构化文本,支持多语言识别以及表格、公式等结构化内容的提取。此外,在保持 0.9

文章图片
#人工智能#机器学习#目标检测 +1
OpenBayes 一周速览|Apple 开源大模型 OpenELM 上线;字节发布 COCONut 首个全景图像分割数据集,入选 CVPR2024

本教程将介绍如何加载 CSV 数据集,定义多层感知器模型,并在 PyTorch 中进行训练和评估,为创建深度学习神经网络模型提供指导。COCONut 是由字节跳动发布的首个大规模人工标注的全景图像分割数据集,包含约 383K 个图像和 518 万个经过人工标注的全景分割掩码。该数据集包含 15.6 万条安徽电信问答数据,包括用户提问、网友回答、最佳回答,数据集来源为百度知道,适用于 FAQ 问答系

文章图片
#人工智能#深度学习#语言模型 +1
DiffVox 打造下一代声效模型;面部情感识别数据集让 AI 读心术成真!

模型结合动态分辨率视觉编码器与 ERNIE-4.5-0.3B 语言模型,可精准解析文本、表格、公式、图表等复杂文档结构,同时支持 109 种语言。依托高效量化技术与推理优化策略,SmolLM3-3B 能在资源受限的设备上稳定运行,并在多项任务中实现接近更大模型的表现,非常适合本地化部署与移动端 AI 应用落地。DeePMD-kit_Example 是 DeePMD-kit 提供的官方示例集,涵盖多

文章图片
#人工智能#深度学习#机器学习 +1
Nemotron Speech ASR低延迟英文实时转写的语音识别服务;GLM-Image开源混合自回归与扩散解码架构的图像生成模型

通过在流式推理过程中复用历史上下文的中间状态,实现对连续音频流的高效处理,保持识别精度的同时显著降低了端到端延迟,支持在推理阶段动态选择不同的延迟与精度权衡点。Fun-ASR-Nano 是由阿里巴巴通义实验室推出的面向低算力部署的端到端大模型 ASR 方案:由 Transformer 音频编码器、连接编码器与 LLM 的 音频适配器、用于生成初始假设的 CTC 解码器,以及最终输出文本的 LLM

文章图片
#语音识别#架构#人工智能 +2
    共 44 条
  • 1
  • 2
  • 3
  • 4
  • 5
  • 请选择