写在前面

作为一个兼具分析&生成能力的AI,ChatGPT最近一段时间热度都非常高,它的确颠覆了很多人的认知,它的出现一定程度上是强人工智能的出现。ChatGPT似乎已经无所不能,文本分类,信息抽取,文本生成,代码生成...通通都可以。

之前跟师兄师姐和老师他们聚会时,饭桌上大家聊了一会儿ChatGPT,那会儿我的直观感受是既然ChatGPT啥都能干了,某种程度上几乎把NLP所有方向都统一了,那我们这些NLP算法工程师,NLP算法研究员以后的路在哪里,重点都在业务理解了吗,公众号还有必要再去发一些有关NLP细分方向的任务的论文解读等文章吗?

前几周,小喵才刚开始试用ChatGPT( 算是赶热度比较晚的了)。试用后虽然对ChatGPT的能力感到惊叹,但也发现ChatGPT也不是万能的,还有很多NLP任务目前还做的不太好。当然ChatGPT每天都在根据用户数据学习更新完善自己,它一定会越来越强。此外,考虑到学习重要的是学习别人提出问题、解决问题的思想,从这一点出发,小喵决定后续也会继续分享NLP细分方向的文章。

1. 文本分段

之前公众号正在介绍文本分段(文本分割)任务,所以这次小喵也测试了下ChatGPT处理文本分段任务的能力:

a5fd4df7c383f4d46a7246401e0160af.png

显然,ChatGPT没有正确地意识到我的意图。ChatGPT对指令(Instruction)比较敏感,也就是说指令会影响结果,那我们再换个说法:

9a946ab5083e21c1c80b324876c9369e.png

还是不行,那再具体一点:

33f13e685ccbd823ab437ee0679248a4.png

好像稍微好点,但是仍然离用户意图比较远。也就是说,ChatGPT在文本分割上效果还有待提升,当然我们也可以多给它一些范例,让它理解“分段”指令指的是什么,应当如何应对这个指令,这样也许会获得稍好一些的结果。

2. 实体识别

小喵也对实体识别这个基础任务进行了测试,在这个任务上也存在意图理解问题,提取结果精度也有待提升:

43ad9acb358855c8947133c386613f31.png outside_default.png

3. 热点话题

444281317bb5bcf1091159b79946e876.png

ChatGPT是在2021年训练的,那么它学到的就是2021年之前相关语料里的知识,也就是说不能太寄希望于它来回答一些当下的知识。

83c33504e67a95f86b290ec27be29a78.png

4. 文本生成之写新闻

cfaf998c17c5d66ac44e572b1085993a.png

在文本生成上,ChatGPT可能生成偏离事实的文本,比如这里我给出的“威斯布鲁克”是指从湖人队交易到爵士队的“威少”。

3f675ad3f6f8b1043a2a082026da40ad.png

就算我将“威斯布鲁克”改成了“威少”(无争议性,就是曾经的雷霆三少之威少),ChatGPT依然写出了非事实“雪人队“。我们知道ChatGPT是在2021年训练的,但2021年威少是在奇才队,而不是什么雪人队,或者雄鹿队。

也就是说2021年的知识ChatGPT也不一定完全学到了。这一点可能是因为虽然ChatGPT基于人工反馈的强化学习优化了模型,想要让模型生成有用无害又真实的文本,但人力能够给予的反馈毕竟有限,模型被纠正的不多,来自网络的数据中的噪声依然可能误导模型。

总结

首先,即使是最先进的 NLP 模型,例如 ChatGPT,也不能完全覆盖 NLP 方向的所有任务。自然语言处理是一个非常广泛的领域,其中有很多不同的任务需要被解决,我们依然必要继续研究 NLP 方向的其他任务,以推动 NLP 领域的进一步发展。

此外,考虑到学习重要的是学习别人提出问题、解决问题的思想,从以上两点出发,小喵决定继续分享NLP细分方向的文章。

outside_default.png

最后,技术的发展不应该被看作是一种竞争,而是一种合作,无论中国还是美国都应该以“共同推动 NLP 技术的进一步发展”为核心,互相学习共同进步。

63fc8bbb49c454949f9d2072b2b62352.png
 
 

c80df42966935ea4e926d5ef6a503ad0.jpeg

 
 
 
 
 
 
 
 
往期精彩回顾




适合初学者入门人工智能的路线及资料下载(图文+视频)机器学习入门系列下载机器学习及深度学习笔记等资料打印《统计学习方法》的代码复现专辑机器学习交流qq群955171419,加入微信群请扫码
Logo

助力广东及东莞地区开发者,代码托管、在线学习与竞赛、技术交流与分享、资源共享、职业发展,成为松山湖开发者首选的工作与学习平台

更多推荐