VisionMobile：虚拟助手（VA）- Siri背后的前沿UI技术（二）

二、虚拟辅手技术的演进今日技术和明天发展虚拟辅手技术建基5大技术模块：语音识别（SR），自然语言处理（NLP），用户分析，搜索和推荐，以及头像可视化。这些技术模块处于持续演化的状态，为大厂商和创业公司留下开放的创新空间。语音识别语音识别（SR），也称为自动语音识别（ASR）和语音到文字（STT），由机器将话音翻译为文本。文本到语音（TTS）则是将文本转换为话语。如果没有语音...

iteye_3535

226人浏览 · 2012-06-19 12:00:00

iteye_3535 · 2012-06-19 12:00:00 发布

二、虚拟辅手技术的演进

今日技术和明天发展

虚拟辅手技术建基5大技术模块：语音识别（SR），自然语言处理（NLP），用户分析，搜索和推荐，以及头像可视化。这些技术模块处于持续演化的状态，为大厂商和创业公司留下开放的创新空间。

语音识别

语音识别（SR），也称为自动语音识别（ASR）和语音到文字（STT），由机器将话音翻译为文本。文本到语音（TTS）则是将文本转换为话语。如果没有语音识别，人和虚拟助手之间对话就无法实现。声控虚拟助手使用语音识别来进行诸如网络搜索，语音拨号，听写文本消息（如短信，电邮，甚至整个文档）。

语音识别领域的核心成员是Nuance，Google，iSpeech和微软。

展望。以美国英语作为母语的虚拟助手有大量需求，对其他语种的需求亦在不断增加，厂商感受到其他本地语种不断增长的需求，研发本地语种的产品。最大的挑战是语言开发成本，每种新语言的语言识别基本上都是从零开始。语言的相互依赖性——事实上，大部分语言并非自成系统——这增加困难。目前，美国英语是虚拟助手首选语言，它是最理想的语言识别引擎的测试环境：美国是语言学上的同质化市场，有大量内容和第三方API提供给美国和英语国家访问。

自然语言处理—理解内容

语言识别将话语转化为文本，自然语言处理（NLP）将文本转化为有明确含义，可理解上下文。通过理解用户的上下文——过往历史，习惯，喜好，位置——虚拟助手返回最关联的信息和推荐，并以符合社交的方式处理。

自然语言处理技术领域上核心成员是SRI国际，Nuance，AT & T实验室，Google和Artificial Solutions。

展望。为了使虚拟助理可与用户充分对话，厂商目前正在研究前向后向对话和理解社交互动规则技术。不要忘记这些社交互动规则曾导致微软Office助理Clippit（又称Clippy）的失败。一个过渡解决方案是让用户根据场景设置互动规则，也即由用户告诉虚助手处理级别：开启聊天，对话，推荐，或者不开启这些。VA也需要学习并根据用户历史信息进行反应，这要求处理大量数据进行上下文训练，需要大量服务器能力。云处理是这类“大数据”的自然选择，但在可预见的将来，厂家倾向混合方式，即一些数据保存在设备本地，允许在没有网络连接的情况下使用虚拟助手功能。

“虚拟个人助理的下一个技术飞跃将是维持对话。”Norman D. Winarsky博士， SRI风险投资SRI国际副总裁。

用户分析（User Profiling）

用户分析包括用户信息收集，并据此为用户兴趣、喜好、上下文和意图建模。用户分析是虚拟助手提供个人信息、对话、推荐的基础。

用户分析技术的核心成员是SRI国际，Google，Apple，AT&T实验室，Artificial Solutions，和Tobii （Apple）。

展望。新的用户分析技术将不局限于数字内容跟踪，将从眼球跟踪、键盘跟踪，温度跟踪中收集信息。三星最新的智能手机，Galaxy S III，具有眼球跟踪技术，苹果公司在2009年部分购买眼球跟踪专家Tobii，说在未来集成Tobii技术。

虚拟化头像和个性化

虚拟头像是图像，是人物的动画表现，同样在很多虚拟助手中应用。虚拟人物实现了人物化助手，增加情感意图。头像的可视化游戏化方式，使互动更加有趣和投入。

展望。对于人物化头像，新技术例如3D身体扫描，脸部识别的潜力，与3D图像在设备集成时，将形象可视化提高到新的层次。头像在大量的虚拟助手中使用，但在定制化收入潜力上意见分歧。其中一个选择是作为应用销售，另一个是放置品牌，例如为头像提供某品牌毛衣的购买。

相关链接：我的产业生态链和杂谈文章