(2020)指代消解ontoNotes_Release_5.0处理详细流程

最近在做指代消解的任务，目前才处理完数据部分，确实有些繁琐，因此记录准备用spanbert做的指代消解，所以该代码里的.sh文件： github代码数据获取获取数据部分也需要耐心，参考以下博客（可以搭配看）博客1博客2注意事项：在获取ontoNotes 5.0数据时，注册完LDC账号后，立马给LDC官方发邮件，告知你比较急，希望将管理员信息告诉你或者直接将你...

troublemaker、

5031人浏览 · 2020-04-22 20:52:42

troublemaker、 · 2020-04-22 20:52:42 发布

最近在做指代消解的任务，目前才处理完数据部分，确实有些繁琐，因此记录
准备用spanbert做的指代消解，所以该代码里的.sh文件： github代码

数据获取

获取数据部分也需要耐心，参考以下博客（可以搭配看）
- 博客1
- 博客2
注意事项：
- 在获取ontoNotes 5.0数据时，注册完LDC账号后，立马给LDC官方发邮件，告知你比较急，希望将管理员信息告诉你或者直接将你拉入组织。
- 如果LDC告知你管理员信息，立马联系管理员。

数据处理

以spanbert中的setup_training.sh脚本为例，我之前是在win10上处理的，最好在Linux上处理（别担心我也是linux小白）
下方两个连接是官方的处理教程（参考即可）
- 数据处理教程1
- 数据处理教程2

步骤：

🐢 1.在数据处理教程1 中下载（都在该页面中）：

训练数据：conll-2012-train.v4.tar.gz
验证数据：conll-2012-development.v4.tar.gz
测试数据：conll-2012-test-official.v9.tar.gz 、conll-2012-test-supplementary.v9.tar.gz、conll-2012-test-key.tar.gz
处理脚本：conll-2012-scripts.v3.tar.gz
ontonotes-release-5.0等加入组织后就可以下到

🐢 2. 将图中7个文件放在一个目录下，解压即可。

前6个conll解压后生成conll-2012文件夹
最后一个生成ontonotes-release-5.0文件夹
到此才刚下载好数据
setup_training.sh部分

🐢 3. 执行setup_training.sh脚本

sh空格./setup_training.sh空格ontonotes-release-5.0路径空格conll-2012路径
只要下图部分即可（下面部分也先去掉），因为这部分需要在python2运行，或者改成python3（我比较懒，文末有转换方法），不然会报错的

我自己的例子：
- setup_training.sh和conll-2012 ontonotes-release-5.0在同一级目录中，转到该文件目录，执行：sh空格./setup_training.sh空格./ontonotes-release-5.0空格./

🐢 4. Setup(代码中markdowm文件的步骤)

以下这部分按顺序执行，建议在linux中操作，主要涉及到.so动态库，windows不太好操作。
配置环境: pip install -r requirements.txt
export data_dir=</path/to/data_dir>（我是 export data_dir=./)
./setup_all.sh: This builds the custom kernels（我是 bash ./setup_all.sh)
现在的setup_training.sh内容如下:
- ./setup_training.sh <ontonotes/path/ontonotes-release-5.0> $data_dir（我是bash空格./setup_training.sh空格./ontonotes-release-5.0/空格./)
🐢5. 最后会在data_dir目录生成如下json文件
- 英文：训练集2802个文档，验证集343个文档，测试集348个文档
- 中文：训练集1810个文档，验证集252个文档，测试集218个文档
  - 注：生成中文json需要修改的地方
    - setup_training.sh
    - minimize.py
到此数据处理完毕，不足之处还请指出，我将及时更正。
补充：If you are using Python 3.X, you have to edit the conll-2012/v3/scripts/skeleton2conll.py file
- Change except InvalidSexprException, e: to except InvalidSexprException as e
- Change all print to print()

AtomGit 开源协作平台测评赛

瓜分20万奖金获得内推名额丰厚实物奖励易参与易上手

更多推荐

ADS1292R 使用过程心电图高精度ADC模块

文章目录1 Fundamentals ofPrecision ADC Noise Analysis 精密模数转换器噪声分析基础1 Fundamentals ofPrecision ADC Noise Analysis 精密模数转换器噪声分析基础https://www.ti.com.cn/cn/lit/wp/slyy192/slyy192.pdf?ts=1600659610730&ref_u

开放原子开发者工作坊

实现一个家庭安防与环境监测系统（一）

开放原子开发者工作坊

【cf】Codeforces Round #774 (Div. 2) 前4题

题目A. Square Counting 简单数学题目大意题解代码B. Quality vs Quantity 排序题目大意题解代码C. Factorials and Powers of Two 状态压缩dp+位运算题目大意题解代码D. Weight the Tree 树形dp+dfs题目大意题解代码E. Power Board 看起来像是数论？许多年没打cf了，偶尔打了一盘，恢复紫名了。A. S