logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

CVPR 2025 上的具身计算机视觉:下一个人工智能前沿

CVPR 2025 澄清了视觉理解、语言和身体动作的融合不再是科幻小说。具身人工智能正在兴起,它需要新的数据、新的基准、新的道德规范和新的想象力。让我们共同塑造这个未来。

文章图片
#人工智能#计算机视觉
InternVL 3.5:最佳开源多模态法学硕士

OpenGVLab/InternVL3_5-8B ·拥抱脸我们正在通过开源和开放科学推进人工智能并实现人工智能民主化。InternVL3.5 的核心是一个多模态视觉语言模型。这意味着它可以同时看到和阅读,处理图像,理解视频,解析密集的文档,根据所见回答问题,甚至遵循空间推理步骤。可以把它想象成拥有眼睛和大脑的人工智能,它开始真正从视觉上“理解”世界,而不仅仅是文本。但与早期的模型不同,早期模型将视

文章图片
#人工智能
Google Magenta-realtime:人工智能现在可以生成歌曲

Magenta RealTime 是一种人工智能模型,可以根据您给出的指令即时生成音乐。这些指令可以采用文本描述(如“柔和的钢琴”或“欢快的鼓”)或模型可用于灵感的简短音频剪辑的形式。它的特别之处在于它是实时工作的。这意味着您可以在播放时更改声音或风格,它会在您播放时做出响应。这使得它非常适合现场表演、即兴演奏会或只是在家尝试新的音乐创意。洋红色 RT 也向所有人开放。谷歌已经发布了代码和模型权重

文章图片
#人工智能
人工智能的拟人化问题

虽然 ELIZA 对图灵测试(在我看来是智能的基准,弊大于利)进行了嘲讽,但它提供了对人机交互的一个重要新现象的洞察:后来被称为 ELIZA 效应,它描述了用户对技术环境和局限性的认识与他们想要忽略它的倾向之间的认知失调, 实际上,用户的欲望“想要被愚弄”,这是一种准暂停的怀疑,我们在欣赏电影或以其他方式想要逃避现实时也会经历这种怀疑。这可能只会导致我们回来与系统互动,但在最坏的情况下,它可能会导

文章图片
#人工智能#百度
Reachy-Mini : HuggingFace 的第一个开源机器人

将显示缩放图像它是 Hugging Face 有史以来第一个开源机器人,一半是玩具,一半是实验,一半是严肃的工具,适合任何想要构建人工智能驱动的办公桌伙伴的人。初学者生成式人工智能(视觉插图)适合初学者的生成式人工智能(视觉插图)一个视觉入门套件,适用于任何试图了解这个人工智能如何......可以把它想象成如果 WALL·E(希望你看过电影)它非常小,因此肯定不会试图取代人类工人。它只是试图存在于

文章图片
#机器人
人工智能时代的实验设计

为了更好地理解这个复杂的话题,让我们想象一下,在一个化学实验室团队中,他们必须选择最佳配方来制造更轻的生物塑料,因此目标是最小化最终产品的密度,而塑料材料的所有其他特性相同。一个基本的例子是实验成本,因为实验设计的经典公式假设任何配置的成本都是等价的。然而,实际上,成本因配置而异。每个代理模型都有其优点和缺点,选择通常取决于手头问题的具体特征,例如输入空间的维数、目标函数的性质以及可用的计算资源。

文章图片
#人工智能
作为数据分析师,我每天使用的 7 个 ChatGPT 提示

我经常粘贴数据集的样本,并要求 ChatGPT 快速发现模式——尤其是可能需要更深入研究的趋势或我可能错过的意外波动。为什么重要:新鲜的眼光很重要。使用数据集数小时后,很容易获得隧道视野。ChatGPT 让您立即获得第一眼——有时会捕捉到我没有注意到的峰值、下跌或季节性。我如何使用它:“这是一个 CSV 快照:月份、销售额、地区......你能总结一下主要趋势并指出任何奇怪的地方吗?很多时候,我通

文章图片
#人工智能
为什么我从 REST API 到 MCP 再到 CLI,最后得到了自我改进的 AI

Desktop Commander 创建一个“weekly-ai-repo-research”文件夹,编写一个自定义 shell 脚本,将所有 GitHub CLI 命令组合到一个优化的调用中,对其进行测试以确保其有效,然后创建有关如何使用它的文档。我可以将它们全部用于复杂的工作流程,例如将一个工具的调查结果自动发布到 Slack 和 Trello,并要求 AI 对如此复杂的流程进行编纂,这样它就

文章图片
#人工智能
当逻辑遇见学习:探索神经符号人工智能

如果您以前没有听说过这个术语,我不会感到惊讶。或者,如果你有过,也许在一篇论文、一个研究演讲中简要地提到,甚至在人工智能会议上顺便提到。但它正在悄悄地成为当今人工智能研究中更重要的想法之一。尤其是现在,当我们达到纯神经模型的极限时。从本质上讲,神经符号人工智能(或简称 NeSy)旨在将两个不同世界的精华结合在一起。一方面,你有神经网络:LLM、图像分类器、语音识别器等。它们功能强大、灵活,并且可以

文章图片
#学习#人工智能
Nanonets OCR-s:有史以来最好的 OCR AI 模型

在LLM和音频模型发布周的浪潮中,我们发布了一个新的OCR模型版本,它非常完美,而且不仅仅是一个OCR。大多数 OCR 工具就像笨拙的机器人。他们抓住他们能看到的任何文本并将其扔掉,无论它是句子的一部分、表格、奇怪的邮票还是某人的签名。我的新书《模型上下文协议:面向初学者的高级 AI 代理》现已出版将显示缩放图像将显示缩放图像可以提取有结构的表这种新模型不仅可以阅读文档,还可以理解文档。它将图像转

文章图片
#人工智能
    共 102 条
  • 1
  • 2
  • 3
  • 11
  • 请选择