NLP基础任务项目-不断学习,不断收集,不断更新

Transformer 讲解非常好的文章。这篇文章从输入开始，一步一步演示了数据在 Transformer 中的流动过程。中文讲解在 AINLP 的公众号上很详细。知识图谱相关学习资料，提供系统化的知识图谱学习路径。本文总结了我们做法研杯司法摘要任务的经验。第二篇和第一篇结合起来看非常合适。比较好的文本相似度处理总结。

QuietNightThought

14570人浏览 · 2020-10-22 12:03:02

QuietNightThought · 2020-10-22 12:03:02 发布

文章目录

A. 比较好的项目模块:
B. 比较好的论文:
- 一: 自然语言处理相关
- 二: 知识图谱相关
C. 比较好的科普文章:

A. 比较好的项目模块:

一: 自然语言处理

1. 基础任务集合

1.1 用bert做三元组抽取

用bert做三元组抽取
地址:项目详细解释

1.2. 线性attention

线性attention

1.3 文本分类

1.3.1 多标签分类

多标签对应的是一对多的问题。
项目地址
4中不同的实现方法

1.3.2 Bert-Chinese-Text-Classification-Pytorch

中文文本分类

1.3.3 长文本文本分类

项目地址

1.4 CLUE的基准任务模型

描述：包含生成，分类，关键词提取，对话等基准任务模型
项目地址

1.5 文本生成

1.5.1 多语言翻译

脸书多语言翻译：
支持200种语言
脸书 M2M -100
支持100种语言翻译

2. 常用工具集合

JioNLP：中文 NLP 预处理、解析工具包 A Python Lib for Chinese NLP Preprocessing & Parsing
网址：NLP预处理、解析工具包
介绍：JioNLP 是一个面向 NLP 开发者的工具包，提供 NLP 任务预处理、解析功能，准确、高效、零使用门槛。请下拉本网页，查阅具体功能信息，并按 Ctrl+F 进行搜索。JioNLP在线版可快速试用部分功能。关注同名微信公众号 JioNLP 可获取最新的 NLP 资讯，数据资源。

二: 知识图谱

合同审查：信息抽取（NER）+规则+知识图图谱+LLM

1. 一统NER的 W2NER

W2NER
W2NER模型，将NER任务转换预测word-word(备注：中文是字-字)的关系类别，它能够统一处理扁平实体、重叠实体和非连续实体三种NER任务，即一招通吃。

三、图像处理

四、语音识别

1. FunASR: A Fundamental End-to-End Speech Recognition Toolkit

Alibaba语音识别项目

FunASR是一个基础语音识别工具包，提供多种功能，包括语音识别（ASR）、语音端点检测（VAD）、标点恢复、语言模型、说话人验证、说话人分离和多人对话语音识别等。FunASR提供了便捷的脚本和教程，支持预训练好的模型的推理与微调。

2. Robust Speech Recognition via Large-Scale Weak Supervision

openai AI的语音识别项目

1. faster-whisper使用CTranslate2重新实现了OpenAl的Whisper模型，CTranslate2是一个用于Transformer模型的快速推理引擎。这种实现比openai/whisper在使用更少内存的情况下达到相同精度的4倍。在CPU和GPU上同时进行8位量化可以进一步提高效率。

2.Whisper是一个由OpenAl开发的ASR模型，经过了大量不同音频数据集的训练。虽然它确实产生了高度精确的转录，但相应的时间戳是在话语级别，而不是每个单词，并且可能不准确几秒钟。OpenAl的whisper本身不支持批处理。

Whisper是一个通用的语音识别模型。它是在不同音频的大型数据集上训练的，也是一个多任务模型，可以执行多语言语音识别、语音翻译和语言识别。

Transformer序列到序列模型在各种语音处理任务上进行训练，包括多语言语音识别、语音翻译、口语识别和语音活动检测。这些任务被联合表示为一系列由解码器预测的令牌，允许单个模型取代传统语音处理管道的许多阶段。多任务训练格式使用一组特殊的令牌作为任务说明符或分类目标。
我们使用Python 3.9.9和PyTorch 1.10.1来训练和测试我们的模型，但代码库预计将与Python 3.8-3.11和最近的PyTorch版本兼容。代码库还依赖于一些Python包，最值得注意的是OpenAl的tiktoken，用于快速标记器实现。您可以使用以下命令下载并安装(或更新到)最新版本的Whisper:

3. emotion2vec情感通用表征微调模型

通用语音情感识别

emotion2vec是第一个通用的语音情感表征模型。通过自监督预训练，emotion2vec能够在不同的任务、语言和场景中提取情感表征。
该版本权重为多轮迭代微调获得的9分类情感识别模型。首先使用语音情感识别学术数据集fine-tune emotion2vec，然后对15万小时中英数据进行标注，筛选文本情感与语音情感相同，并且置信度高的数据（超过1万小时）再次fine-tune emotion2vec，获得该版本权重。
目前支持的分类为： 0: angry 1: disgusted 2: fearful 3: happy 4: neutral 5: other 6: sad 7: surprised 8: unknown