
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
当前的NER任务被转换为阅读理解任务,但是存在着一个问题只能抽取到一种类型的实体从而效率低下,忽略实体之间的依赖性,模板需要手工构造等问题。这篇论文设定全局和可学习的实例查询语句,把NER任务理解为集合生成任务,同时可并行从句子抽取各类实体。

CLUE(中文语言理解测评基准)是中文语言理解领域的权威榜单,包含多项测评任务。近日,达摩院NLP团队在其中的语义匹配榜登顶,并在魔搭社区(ModelScope)上开源了预训练和微调后的模型。本文将介绍该模型及其使用方法。

我们提出了一个多模态实体链接数据集。为构建这一数据集,我们基于多个角度的考虑:首先,我们综合参考现有的实体链接数据集、分析图文匹配程度、实体消歧难度等信息,采用WikiNews的“图片-标题”对作为原始数据,将Wikipedia作为对应的知识图谱

命名实体识别NER是NLP基础任务,一直以来受到学术界和业界的广泛关注,本文汇总了常见的中英文、多语言、多模态NER数据集介绍。本列表由达摩院NLP团队和天池数据科学团队长期维护,相关数据可以通过序列理解统一框架AdaSeq进行模型训练。
本文介绍了一项研究工作,提出了在结构预测问题上自动拼接word embedding(word embedding)以提高模型准确度的方法。该论文已被ACL2021接收为长文。
之前的实体链接方法面临着在不知道相应实体的情况下不得不预测提及的困境。这篇论文提出了 EntQA,它通过“先预测候选实体然后找到它们在文本中的具体提及“来解决这个难题。EntQA解决方案的提出充分地将文本检索和阅读理解方面的最新研究进展利用到了实体链接任务当中,这其实是如今NLP各任务间范式迁移的又一成功范例。
在本文中,我们提出检索使用相似样本来提升垂直领域NER性能,以及 Entity-Voting 和 Cross-Encoder 两个简单的相似样本建模方法,在 地址 和 电商 两个特殊领域上的实验验证了方法的有效性。

我们从alimeeting的654场会议内容作为文档,对每篇会议文档找了三名标注人员进行关键词抽取标注,然后将每个在文中的关键词标注为进行NER的格式,在bert-crf的框架上当做NER任务进行训练。训练好的模型已经开源在modelscope上,安装modelscope,采取ner pipeline,调用我们训练好的baseline model,就可以使用了。

阿里达摩院NLP团队荣获 SemEval 2022 最佳系统论文奖,相关代码和模型已经开源,技术积累转化为开源NLP代码框架 AdaSeq。
