EMNLP'20最佳论文揭晓！八块肌肉=能打电话？！

文 | 小轶(yì)背景今天上午十点刚刚颁布的EMNLP 2020最佳论文，获奖者是来自UCBerkeley团队的这篇Digital Voicing of Silent Speech。刷...

夕小瑶

303人浏览 · 2020-11-19 17:00:00

夕小瑶 · 2020-11-19 17:00:00 发布

文 | 小轶(yì)

背景

今天上午十点刚刚颁布的EMNLP 2020最佳论文，获奖者是来自UCBerkeley团队的这篇Digital Voicing of Silent Speech。

刷了那么多NLP论文，各种pretraining、BERT、XXX-former...是不是都快刷出审美疲劳了？今年的EMNLP best paper绝对耳目一新！!工作研究了一个极具潜在社会影响力的新任务：Silent Speech Voicing——通过肌电传感器，把无声的说话动作转化为电子语音。如果该技术得以实现，即使不发生声带振动，只要做出相应的发声动作，即迅速转换为语音。想象一下，或许未来有一天，只要动动嘴，都不用发出声音，就能和人打电话了！

该技术可能的应用场景非常广泛，包括：

过分嘈杂的环境（普通的有声电话难以识别清楚）
必须要保持安静的严肃场合（开会摸鱼新思路）
最最重要的是，那些不幸丧失发声能力的人们也将能够与身边人流畅地交流啦！

这个任务显然具有非常大的前景和潜在社会影响。其实近十年也有一些少量工作尝试做类似的事情，但效果都非常不好，让人觉得这事儿可能目前的技术一时半会还实现不了。但emnlp这篇大大提升了实验效果——在一组主要实验中，和之前最强的baseline相比，误差率直降94%。总之，很大程度上证明这个方向还是achievable，大家努努力说不定能成的那种！并且，他们也同时发布了一个针对该任务的大规模数据集。鉴于其深远的应用前景，可以想见之后应该会有大量工作继续follow。而这篇best paper也将成为该任务的开山之作。

论文题目：
Digital Voicing of Silent Speech

论文链接:
https://arxiv.org/pdf/2010.02960.pdf

开源代码:
https://github.com/dgaddy/silent_speech

Arxiv访问慢的小伙伴也可以在【夕小瑶的卖萌屋】订阅号后台回复关键词【1119】下载论文PDF~

方法

接下来，我们简单看一下实现过程~首先第一步是传感器信号采集，需要在嘴和颈脖周围贴上八个传感器，像这样：

然后就会得到八串肌电图信号，像这样：

接下来的任务，就是如何基于肌电图信号，识别出具体的语言信息了。信号转文字的相关研究其实已经有很多了，emnlp这篇的主要贡献其实并不在这一部分，而在于他们发现、并解决了之前研究中的一个问题：前人采用的训练数据都是人在“出声”说话时的肌电信号。但这篇工作则证明，要实现silent speech voicing，必须要用人在“不发声”说话时的肌电信号，因为这两种场景下人的肌肉运作方式是不一样的。motivation很显然，但事实上实现起来是有困难的。因为对于无声的信号来说，是没有对应的语音信号的，很难直接标记出某一段信号对应了哪个单词。他们的解决方法是：对同一段文字，先采集一遍人们说这段话时的有声信号，再采集一遍无声信号。然后让模型在两种信号上都进行训练。两种数据在时间上并不是完全对齐的，所以该模型最核心的一个模块，就是实现两种信号的对齐。

实验

实验中，评测的方式就是请志愿者（或者用语音识别模型）听写转换出来的电子语音。评测指标是word error rate (WER)，直观来说就是和原文的最短编辑距离除以文本长度：

（向右滑动查看完整公式）

主要测试了两种设定下的性能表现（两者主要区别其实就是前者包含的词汇量少很多）：

Closed Vocabulary Condition
Open Vocabulary Condition

测试结果如下表。可以看到，在Closed Vocabulary场景下，WER仅有3.6%，比baseline的误差率减少了94%。在Open Vocabulary场景下，也比baseline降低了20%左右的WER。

小结

今年emnlp的best paper颁给了一个非典型的NLP任务。但确实是很酷的工作！是那种会真正产生社会影响的一类研究~所以说，NLP不止是“万物皆可BERT”，NLP的未来也不只有疯狂pretraining。还有很多有意义的方向值得我们去探索呢！

P.S 从今天起，小轶我笔名改做“小轶(yì)”啦。不是小秩（zhì）。也不是小铁（tiě）哦！

萌屋作者：小轶(yì)

刚刚本科毕业于北大计算机系的美少女学霸！目前在腾讯天衍实验室做NLP研究实习生。原计划是要赴美国就读CMU的王牌硕士项目MCDS，不过因为疫情正处于gap year，于是就来和小夕愉快地玩耍啦~文风温柔优雅，偶尔暴露呆萌属性，文如其人哦！知乎ID：小轶。

作品推荐：

1.谷歌重磅：可以优化自己的优化器！手动调参或将成为历史！？

2.有钱可以多任性？OpenAI提出人肉模型训练，文本摘要全面超越人类表现！

3.ACL20 Best Paper揭晓！NLP模型评价体系或将迎来重大转折

4.Attention模型：我的注意力跟你们人类不一样

后台回复关键词【入群】

加入卖萌屋NLP/IR/Rec与求职讨论群

有顶会审稿人、大厂研究员、知乎大V和妹纸

等你来撩哦~

AtomGit 开源协作平台测评赛

瓜分20万奖金获得内推名额丰厚实物奖励易参与易上手

更多推荐

ADS1292R 使用过程心电图高精度ADC模块

文章目录1 Fundamentals ofPrecision ADC Noise Analysis 精密模数转换器噪声分析基础1 Fundamentals ofPrecision ADC Noise Analysis 精密模数转换器噪声分析基础https://www.ti.com.cn/cn/lit/wp/slyy192/slyy192.pdf?ts=1600659610730&ref_u

开放原子开发者工作坊

实现一个家庭安防与环境监测系统（一）

开放原子开发者工作坊

【cf】Codeforces Round #774 (Div. 2) 前4题

题目A. Square Counting 简单数学题目大意题解代码B. Quality vs Quantity 排序题目大意题解代码C. Factorials and Powers of Two 状态压缩dp+位运算题目大意题解代码D. Weight the Tree 树形dp+dfs题目大意题解代码E. Power Board 看起来像是数论？许多年没打cf了，偶尔打了一盘，恢复紫名了。A. S