logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

教程上新丨狂揽 41k stars,港大团队开源超轻量 AI 助手 nanobot,4000 行代码实现 OpenClaw 核心功能

此外,项目在工程细节上也持续打磨,包括上下文压缩(Context Compact)、原子化会话写入与自动修复机制、长消息拆分(Telegram)、邮箱循环防护以及更严格的沙箱执行环境等。这种「做减法」的设计,使其在开源社区中迅速走红,目前已在 GitHub 收获 41.1k stars。

文章图片
#人工智能#开源#python
教程上新丨狂揽 41k stars,港大团队开源超轻量 AI 助手 nanobot,4000 行代码实现 OpenClaw 核心功能

此外,项目在工程细节上也持续打磨,包括上下文压缩(Context Compact)、原子化会话写入与自动修复机制、长消息拆分(Telegram)、邮箱循环防护以及更严格的沙箱执行环境等。这种「做减法」的设计,使其在开源社区中迅速走红,目前已在 GitHub 收获 41.1k stars。

文章图片
#人工智能#开源#python
教程上新丨基于500万小时语音数据,Qwen3-TTS实现3秒语音克隆及精细调

3.选择「NVIDIA GeForce RTX 5090」以及「PyTorch」镜像,按照需求选择「按量付费」或「包日/周/月」,点击「继续执行」。目前,「Qwen3-TTS:高质量可控多语言语音合成 Demo」已上线 OpenBayes 官网的教程版块,点击下方链接即可体验一键部署教程 ⬇️。1.登录 OpenBayes.com,在「公共教程」页面,选择「Qwen3-TTS:高质量可控多语言语音

文章图片
#人工智能#深度学习#语音识别 +2
外语、方言、少数民族语言全覆盖:Hy-MT1.5 支持 1056 个翻译方向;MIT 联合发布 MathNet:涵盖 2.7 万道奥数真题的多模态数学推理基准

DeepSeek V4 是深度求索(DeepSeek)团队发布的最新一代大语言模型,包含两个版本:DeepSeek-V4-Pro(1.6T 参数)和 DeepSeek-V4-Flash(285B 参数)。MathNet 是由 MIT 团队联合阿卜杜拉国王科技大学等机构于 2026 年发布的一个大规模多语言、多模态数学推理数据集,覆盖代数、几何、数论、组合数学、微积分、概率统计等奥数知识体系,支持数

文章图片
#人工智能#深度学习
流式 3D 重建新突破!LingBot-Map 融合 Trajectory Memory 与几何上下文;12.6 万 QA 样本!RSRCC 数据集推动多模态遥感理解

OpenBayes 发布 12 个公共数据集和5个公共教程资源,涵盖多个前沿领域。数据集包括灾害评估、花卉分类、情绪分析、量子计算、遥感变化检测、足球转会、瑜伽训练、农作物病害检测、多模态解析和医疗药物研究;教程资源包含数据标注工具、自进化AI智能体、隐私过滤、3D 重建和具身智能模型。

文章图片
#人工智能#3d
LongCat-Video-Avatar 1.5开源,具备全领域泛化能力的音频驱动视频生成模型;AI Student Impact Dataset 5 万量级多维度高校 AI 应用数据

OpenBayes 平台最新发布 6 大公共数据集和 6 个AI教程资源。数据集涵盖药物发现、电商广告、电影情感、全景视频、教育评估和医疗 OCR 领域。教程资源包括星系图像反卷积、多模态模型、视频化身生成、矢量草图生成、本地语音合成和论文插图自动生成

文章图片
#音视频#语言模型
教程上新丨16GB 笔记本跑出接近 26B MoE 性能,Gemma 4 12B 基于创新架构统一处理文本 / 图像 / 声音三种模态

Google DeepMind 发布 120 亿参数多模态模型 Gemma 4 12B,采用创新无编码器架构,实现文本、图像和音频统一处理。该模型在性能接近 260 亿参数 MoE 模型的同时,仅需 16GB 显存即可本地运行,支持 256K 上下文窗口和 Agent 功能。

文章图片
#人工智能#语言模型#计算机视觉
教程上新|DeepSeek-OCR 2公式/表格解析同步改善,以低视觉token成本实现近4%的性能跃迁

DeepSeek-OCR2突破传统OCR局限,采用LLM风格的DeepEncoderV2架构,通过语义驱动式视觉token重排实现更自然的文档理解。该模型以Qwen2-0.5B替代CLIP编码器,引入因果流查询机制,支持256-1120个视觉token的多裁剪策略,在OmniDocBenchv1.5基准测试中取得91.09%准确率,较前代提升3.73%

文章图片
#人工智能#机器学习#目标检测 +1
教程上新丨英伟达开源 LocateAnything,3B 模型可实现图像 + 视频的目标指向 / 开放词汇目标检测/指代表达定位 / OCR 文本定位等功能

NVIDIA开源LocateAnything-3B模型,革新视觉定位技术。该30亿参数模型采用创新的ParallelBoxDecoding机制,突破传统坐标Token生成方式的局限,实现目标框等几何结构的并行预测,在保持高精度的同时显著提升解码速度。配套发布的1.38亿样本LocateAnything-Data数据集覆盖多领域场景,增强模型泛化能力。测试显示其在多项视觉定位任务中同步实现质量与速度

文章图片
#目标检测#开源
端侧同尺寸 SOTA:OpenBMB 发布 1B 参数模型 MiniCPM5-1B;集成多级平行语料与多语言词典:SMOL 翻译数据集开源

SMOL多语言翻译平行数据集(221种小语种专业翻译文本) DeepCrack基础设施裂缝检测数据集 chi-bench医疗智能体评测数据集(医疗业务仿真与知识库) World Air Pollution and AQI(全球空气质量月度观测数据)HiDream-O1-Image(统一图像生成模型) X2SAM(图像与视频统一分割模型) LocateAnything-3B(视觉语言定位模型) Mi

文章图片
    共 66 条
  • 1
  • 2
  • 3
  • 7
  • 请选择