logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

Gradium 内测端侧 TTS:支持手机 CPU 本地运行;Fish Audio 推出 STT,支持副言语与情感标记丨日报

EVA Pi 深度集成 EVA OS,可在端侧原生完成 AI 应用开发、部署与持续迭代。(@多知)

用噪音打破听觉恐怖谷:RTE 开发者社区发布 RealNoise™ TTS:全球首个原生合成动态声场的语音大模型

在过去的几年里,语音 AI 行业的内卷方向始终如一:更高的采样率、更低的延迟、更纯净的音质。我们不断训练模型去剔除哪怕最微小的背景杂音,追求实验室级别的完美信噪比(SNR)。答案是否定的。当信噪比超过 98dB 时,绝对干净的背景和毫无波澜的完美咬字,反而会触发人类潜意识中的**「听觉恐怖谷」 (Auditory Uncanny Valley)**效应。过于完美的合成语音在社交心理层面会引发排异反

文章图片
#实时互动#人工智能#语音识别
AI 牛马项圈公司新估值 20 亿美元,亚秒级实时监控;ProactiveVideoQA:首个视频多模态模型主动交互基准丨日报

(Maverick 普通版本则不支持眼动追踪)。Maverick 的 GazeIntent 眼动追踪系统可以追踪用户细微的眼球运动,并将其转化为眼镜上的输入信号用于交互。如下图展示的,是用眼动追踪系统控制指针,查看不同时段的股价。另外,眼动追踪还可以用于自动抓取视线聚焦的内容方便 AI 进行识别和解读,而不用对于视野内所有信息进行无差别识别,从而降低算力损耗。产品支持丰富的应用场景,用户可以通过

#人工智能#交互
融资2700万美元,Linq推出统一通信API;Figure创始人注资1亿美元成立Hark,研发多模态模型和非穿戴硬件丨日报

模型底层原生输出 44.1kHz 音频,同时针对不同受限带宽或部署场景提供纯净的降采样(downsample)能力,支持单模型输出 24kHz、16kHz WAV,以及专为传统电话系统优化的 8kHz mulaw 格式。区别于早期的概率性生成,模型开始具备「预见性」创作能力,能预先规划音乐框架、配器方案及情绪起伏,按逻辑链条推进音频渲染。初始版本聚焦于端到端(End-to-End)架构的工程可行性

#人工智能
小米开源声音理解模型 MiDashengLM-7B;B 站海外上线 AI 原声翻译功能,还原 UP 主声线丨日报

NotebookLM 将为「音频概览」(Audio Overviews)和即将推出的「笔记本应用」(Flashcards 和 Quizzes)提供全新的自定义流程。谷歌 NotebookLM 的最新更新显示其重点扩展到了个人知识管理和学习支持方面。**音频概览自定义菜单引入了预设模式,如深入解析、辩论或批评,允许用户定制生成音频的格式。**选择模式后,用户可以调整语言、长度并添加自定义指令,相较于

文章图片
#人工智能
桌游玩家招募!全球首款 AI 主题桌游《Talk With》线下开玩丨北京 AI 原点社区 Party Nights 见!

在中关村论坛人工智能主题日期间,为展现海淀人工智能生态氛围、传播原点社区品牌价值。3月25日-29日在AI原点社区举办「原点Party Nights」系列活动。紧扣「强社交、重体验、深联动」的活动调性,定位为AI青年会客厅和思想碰撞实验场,整合中关村AI原点社区社交空间、赛博空间、展示空间,邀请主论坛嘉宾、AI行业大咖、AI原生青年共聚原点社区,策划开展「嗨点小圆桌」播客、AI创新工作坊、原点派对

#人工智能
    共 317 条
  • 1
  • 2
  • 3
  • 32
  • 请选择