logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

Windows 11全面AI化:语音助手与自主代理技术解析

当被问及共享办公环境中的员工是否会使用语音功能,可能危及隐私时,Mehdi指出,已经有数百万人通过PC和耳机进行语音通话,并预测用户会适应:“就像鼠标刚问世时一样,人们必须弄清楚何时使用它,正确的方式是什么,如何让它实现。关键的是,虽然某中心重点介绍了合作伙伴推出的新款Copilot+ PC型号,价格从649.99美元到1,499.99美元不等,但今天宣布的核心AI功能可在任何Windows 11

#人工智能#操作系统#AIGC +2
Windows 11全面AI化:语音助手与自主代理技术解析

当被问及共享办公环境中的员工是否会使用语音功能,可能危及隐私时,Mehdi指出,已经有数百万人通过PC和耳机进行语音通话,并预测用户会适应:“就像鼠标刚问世时一样,人们必须弄清楚何时使用它,正确的方式是什么,如何让它实现。关键的是,虽然某中心重点介绍了合作伙伴推出的新款Copilot+ PC型号,价格从649.99美元到1,499.99美元不等,但今天宣布的核心AI功能可在任何Windows 11

#人工智能#操作系统#AIGC +2
Gemini 2.5原生音频技术与多模态能力解析

可控语音生成 (TTS) 已在预览阶段提供给Gemini 2.5 Pro和Flash版本,可通过在Google AI Studio的生成媒体标签页中选择语音生成功能来使用。此外,模型的所有音频输出都嵌入了我们的水印技术SynthID,以确保透明度,使AI生成的音频可被识别。因此,Gemini直接在音频中进行推理和语音生成,实现高效、实时的沟通。我们正在为Gemini 2.5模型引入原生音频输出,通

#音视频#人工智能#AIGC +1
三项神经突破变革机器人学习

机器人学习的进步正在改变机器人如何从仿真中获取复杂技能并迁移到现实世界。NeRD 实现了更准确的动力学预测,RSE 简化了从人类演示中学习灵巧操作的过程,而 VT-Refine 则结合视觉和触觉实现了稳健的双手装配。这些方法共同展示了可扩展的、数据驱动的学习如何正在缩小机器人能力与人类能力之间的差距。更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https:/

#机器人#学习
三项神经突破变革机器人学习

机器人学习的进步正在改变机器人如何从仿真中获取复杂技能并迁移到现实世界。NeRD 实现了更准确的动力学预测,RSE 简化了从人类演示中学习灵巧操作的过程,而 VT-Refine 则结合视觉和触觉实现了稳健的双手装配。这些方法共同展示了可扩展的、数据驱动的学习如何正在缩小机器人能力与人类能力之间的差距。更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https:/

#机器人#学习
使用spaCy与spacy-llm构建知识图谱实战

知识库是一个以结构化方式存储信息的中心化仓库,供计算机系统和人类使用。以清晰的结构组织数据以便于搜索基于现有连接推断新信息更好地可视化实体之间的所有连接普通数据库和知识库之间的主要区别在于,普通数据库可能存储独立且不相关的信息片段,而知识库的结构通常反映了其内容片段之间的关系。知识库围绕本体构建。本体定义了知识库中存在哪些类型的实体和关系。例如,一个本体可能将“计算机”定义为一个实体,然后描述其关

#知识图谱#人工智能#自然语言处理 +1
计算机视觉与生成式AI及推理的集成技术

生成式AI正在为分析现有视频流开辟新的可能性。视频分析正在从计数对象演变为将原始视频内容转化为实时理解。这使得人们可以获得更具可操作性的洞察。某中心的AI蓝图——视频搜索与摘要(VSS)——将视觉语言模型(VLM)、大型语言模型(LLM)和检索增强生成(RAG)与优化的数据摄取、检索和存储流程结合在一起。作为某中心大都会平台的一部分,它支持存储和实时视频理解。在之前的版本中,VSS蓝图引入了高效视

#人工智能#计算机视觉#生成式AI +2
从爱好者到专家:机器人抓取技术的科研之路

艾丽卡·阿杜,一位在某个机器人中心工作的研究科学家,在宾夕法尼亚大学大二时修读了《机器人学导论》课程后,便被机器人领域深深吸引。今天,她作为一名研究科学家,致力于解决机器人技术领域的重大挑战,而这一切都源于那堂决定性的大学课程。

#机器人#AIGC#人工智能
提升数据表征的对比学习新方法

许多人工智能的最新进展都源于表示学习:机器学习模型学习将数据项表示为多维空间中的向量,其中向量之间的几何关系对应着项目之间的语义关系。某机构的M5团队致力于构建与某中心商店相关数据(产品描述、查询、评论等)的通用语义表示,这些表示可供整个某机构的机器学习系统使用。其方法涉及利用每个实体可访问的所有数据,这些数据通常跨越多种模态。生成通用表示最成功的方法之一是对比学习,模型在输入对上进行训练,这些输

#学习#机器学习#AIGC +1
NVIDIA开源Audio2Face面部动画生成技术

先进生成式AI技术为3D虚拟形象带来逼真表情。Audio2Face利用AI从音频输入生成逼真面部动画。该技术通过分析音素和语调等声学特征,创建动画数据流,然后映射到角色的面部姿势。这些数据可以离线渲染用于预设内容,或实时流式传输用于动态AI驱动角色,提供准确的唇形同步和情感表达。

#开源#人工智能#开源工具 +2
    共 318 条
  • 1
  • 2
  • 3
  • 32
  • 请选择