医疗NLP实践与思考
医疗NLP实践与思考深度学习技术在许多医学问题上取得成功:医学图像分类和分割:CNN文本中信息抽取、疾病预测:CNN、RNN、transformer病患语音识别和机器翻译:RNN、Seq2Seq体征检测和疾病风险评估:RNN、MLP、transformer新药研发:GCN手术机器人:CNN、强化学习等等…NLP赋能医疗业务医疗数据包括:电子病历数据、药品说明书、检查报告单、体检报告、在线问诊/论坛
医疗NLP实践与思考
深度学习技术在许多医学问题上取得成功:
医学图像分类和分割:CNN
文本中信息抽取、疾病预测:CNN、RNN、transformer
病患语音识别和机器翻译:RNN、Seq2Seq
体征检测和疾病风险评估:RNN、MLP、transformer
新药研发:GCN
手术机器人:CNN、强化学习
等等…
NLP赋能医疗业务
医疗数据包括:电子病历数据、药品说明书、检查报告单、体检报告、在线问诊/论坛问答、医学教科书、科研文献等等。
一个例子:智能电子病历质检
医疗实体、属性联合抽取
医学实体抽取的特点:
实体属性(关系抽取?)
现在/过去、肯定/否定…
嵌套(Nested):35%+
非连续(Dis-continued)
Span-based BackBone
30+实体、属性
动机:增强Span表示→融入boundary supervision信息。
优点:Inference加速:O(N^2)→O(m*N)
医疗嵌套实体
动机:嵌套的NERVS成分解析
公式:使用部分观察到的树进行选区分析
优点:批处理:O(n^3)->O(n*logn)
PTLM – 医学术语归一化
问题:
临床上,关于同一种 诊断,手术,药品,检查,化验,症状等,会有多达几十到上百种不同的写法。
上感 -> 上呼吸道感染 ICD: J06.903
胆囊结石 , 结石性胆囊炎 -> 胆囊结石伴胆囊炎 ICD: K80.002
氟哌酸 -> 诺氟沙星 国药准字H10910059
应用领域:
医保、商保(诊断分组DRGs): ICD自动编码
数据治理
医学科研统计
PTLM – 合理用药判断
生成 – Text2Logic
合理用药
逻辑知识:
适用于{富马酸比索洛尔片(进口),
病症集合{病症集合{高血压、冠心病(心绞痛)},
条件{范围{射血分数,minThan{35%}}, 慢性稳定性心力衰竭}}}
医学临床试验结果预测
融入知识的医学预训练语言模型
中文医疗信息处理标准数据集
中文医疗NLP缺乏标准数据集,之前使用的有:
CCKS/CHIP会议Shared Task
竞赛类医疗数据集
论文数据集
中文医疗NLP暂无多任务榜单
GLUE/SuperGLUE
CLUE
BLURB(Microsoft)
CBLUE:国内首个医疗NLP标准数据集评测Benchmark
CBLUE任务介绍:
更多推荐
所有评论(0)