医疗NLP实践与思考

深度学习技术在许多医学问题上取得成功:

医学图像分类和分割:CNN

文本中信息抽取、疾病预测:CNN、RNN、transformer

病患语音识别和机器翻译:RNN、Seq2Seq

体征检测和疾病风险评估:RNN、MLP、transformer

新药研发:GCN

手术机器人:CNN、强化学习

等等…

NLP赋能医疗业务
医疗数据包括:电子病历数据、药品说明书、检查报告单、体检报告、在线问诊/论坛问答、医学教科书、科研文献等等。

一个例子:智能电子病历质检
在这里插入图片描述
医疗实体、属性联合抽取
医学实体抽取的特点:

实体属性(关系抽取?)
现在/过去、肯定/否定…

嵌套(Nested):35%+在这里插入图片描述
非连续(Dis-continued)
Span-based BackBone

30+实体、属性
在这里插入图片描述
在这里插入图片描述
动机:增强Span表示→融入boundary supervision信息。

优点:Inference加速:O(N^2)→O(m*N)
在这里插入图片描述
医疗嵌套实体
在这里插入图片描述
动机:嵌套的NERVS成分解析

公式:使用部分观察到的树进行选区分析

优点:批处理:O(n^3)->O(n*logn)
在这里插入图片描述
PTLM – 医学术语归一化
问题:

临床上,关于同一种 诊断,手术,药品,检查,化验,症状等,会有多达几十到上百种不同的写法。

上感 -> 上呼吸道感染 ICD: J06.903
胆囊结石 , 结石性胆囊炎 -> 胆囊结石伴胆囊炎 ICD: K80.002
氟哌酸 -> 诺氟沙星 国药准字H10910059

应用领域:

医保、商保(诊断分组DRGs): ICD自动编码
数据治理
医学科研统计
在这里插入图片描述
PTLM – 合理用药判断
在这里插入图片描述
生成 – Text2Logic
合理用药
在这里插入图片描述
逻辑知识:

适用于{富马酸比索洛尔片(进口),
病症集合{病症集合{高血压、冠心病(心绞痛)},
条件{范围{射血分数,minThan{35%}}, 慢性稳定性心力衰竭}}}

医学临床试验结果预测
在这里插入图片描述
融入知识的医学预训练语言模型

在这里插入图片描述
中文医疗信息处理标准数据集
中文医疗NLP缺乏标准数据集,之前使用的有:

CCKS/CHIP会议Shared Task
竞赛类医疗数据集
论文数据集
中文医疗NLP暂无多任务榜单

GLUE/SuperGLUE
CLUE
BLURB(Microsoft)
CBLUE:国内首个医疗NLP标准数据集评测Benchmark
CBLUE任务介绍:
在这里插入图片描述

Logo

CSDN联合极客时间,共同打造面向开发者的精品内容学习社区,助力成长!

更多推荐