医疗领域是一个典型的富文本富知识领域,存在大量专业术语和知识以及海量医疗文本数据,包括电子病历、医学教材、临床指南和医学文献等。医疗AI的核心是让机器训练成一个合格的医生,能够阅读并理解医疗文本,具有医疗专业知识,并能做出正确的医疗决策。
近日,云知声-中科院自动化所语言与知识计算联合实验室团队(Unisound&CASIA)取得关键技术突破,自主研发了基于高效持续学习的医疗预训练语言模型,并针对多项下游任务微调。这一方法在CBLUE2.0月度榜单中综合得分排名第一(1/1009),体现了团队在医疗AI行业的技术领先性。
中文医疗信息处理榜CBLUE2.0榜单排名
CBLUE:首个中文医疗信息领域公开评测基准
中文医疗信息处理挑战榜CBLUE(Chinese Biomedical Language Understanding Evaluation) 是由中国中文信息学会医疗健康与生物信息处理专业委员会在合法开放共享的理念下发起,旨在推动中文医学NLP技术和社区的发展。
该榜单在设计上综合考虑了任务类型和任务难度两个维度,目标是建设一个任务类型覆盖广、同时也要保证任务的难度的benchmark,因此榜单在吸收往届CHIP/CCKS/CCL等学术评测任务的同时也适当增加了业界数据集,业务数据集的特点是数据真实且有噪音,对模型的鲁棒性提出了更高的要求。
CBLUE评测基准2.0任务形式多样,涵盖了医学信息抽取(实体抽取,关系抽取,事件抽取)、医学术语标准化(疾病和手术自动ICD编码)、医学文本分类、医学句子关系判定和医学对话理解与生成共5大类任务15个子任务;其数据来源分布广泛,包括医学术语、医学教材、电子病历、临床试验征集文本以及互联网轻问诊文本等。
该榜单推出后受到了学界和业界的广泛关注,自2021年4月正式上线以来,共吸引包括百度医疗等超300支队伍参与打榜,已逐渐发展成为检验中文医疗信息处理能力的“金标准”。
云知声疗预训练语言模型CirBERTa
云知声-中科院自动化所语言与知识计算联合实验团队在医疗预训练语言模型技术上取得突破性进展,在CBLUE2.0榜单上登顶榜首。模型在5个单项任务(CHIP-CTC、CHIP-STS、KUAKE-QIC、MedDG、CHIP-MDCFNPC)排名第一,10个单项排名前三,取得了综合分74.700的佳绩。
成功登顶背后的关键技术是联合实验室团队研发的医疗预训练语言模型CirBERTa。
首先,基于团队在医疗知识图谱和医疗文本理解方面多年的积累,利用预训练语言模型领域增强和知识增强技术,学习了 100 多万的医学专业术语和 超过200G的医疗文本数据,大幅提升了对医疗文本的理解和生成能力。
其次,现有预训练语言模型方法注重建模通用语义理解能力,不能有效区分不同难易程度的样本,导致困难样本的处理能力较弱。针对这一问题,CirBERTa在DeBERTa-V3模型的基础上,融入了持续学习的理念。一方面,自动识别和检测当前模型中难以理解的语义内容(如字词、句子等);另一方面,通过增量训练让模型更好地理解和记忆这些语义内容。两方面持续迭代学习,增强了模型的语义表达能力和对困难数据的学习能力,无论是在通用领域还是在医疗等低资源领域,CirBERTa都显著地改善了模型的训练效率与深层次语义分析能力,达到了SOTA效果。
在此之前,云知声已成功将医疗领域NLP技术在多个项目中落地,并在多项评测比赛中取得冠亚军,此次登顶有效验证了云知声在医疗NLP技术方面的先进性与全面性。目前,预训练语言模型CirBERTa已经全面应用于云知声智慧医疗的多个产品线,包括病历质控系统、单病种质量管理平台、导诊预诊机器人、医保审核系统等。未来,云知声还将持续推动自然语言处理及知识图谱等技术在医疗领域的技术创新,用科技的力量提升打造虚拟医生,提供智慧医疗服务,建设智慧型医院。