就在刚刚举办的世界权威多语言理解评测XTREME(Cross-Lingual Transfer Evaluation of Multilingual Encoders)中,哈工大讯飞联合实验室(HFL)团队以总平均分84.1分位列榜首,刷新世界纪录,在四个赛道中获得三项最好成绩!
这也标志着科大讯飞多语言理解与跨语言迁移能力再上新台阶。
关于这项技术的应用,我们来点直观的展示,来看看机器的阅读理解难度有多高:
The heat required for boiling the water and supplying the steam can be derived from various sources, most commonly from burning combustible materials with an appropriate supply of air in a closed space (called variously combustion chamber, firebox). In manchen Fällen ist die Wärmequelle ein Atomreaktor, Erdwärme, Solarenergie oder Abwärme von einem Verbrennungsmotor oder einem Industrieprozess. En el caso de modelos o motores de vapor de juguete, la fuente de calor puede ser un calentador eléctrico.
上述这段话包含了英语、德语、西班牙语,而这只是机器多语言理解评测的冰山一角,它要面临的是多达40种语言的高难度理解。翻译成中文就是:
让水沸腾以提供蒸汽所需热量有多种来源,最常见的是在封闭空间(别称有 燃烧室 、火箱)中供应适量空气来 燃烧可燃材料 。在某些情况下,热源是核反应堆、地热能、 太阳能 或来自内燃机或工业过程的废气。如果是模型或玩具蒸汽发动机,还可以将 电 加热元件作为热源。
可是这其中有什么难度呢,接着往下看图片
最新突破:在40种语言下完成自然语言理解图片
XTREME评测由谷歌公司举办,旨在全面考察模型的多语言理解与跨语言迁移能力。
这个评测覆盖了中文、英语、韩语、日语、阿拉伯语、越南语等40种语言,包含了句对分类、序列标注、阅读理解、句子检索赛道,共四大类九个任务的考核。
XTREME评测包含4大类9个任务,分别为:
句对分类:XNLI、PAWS-X(自然语言推断)
序列标注:UDPOS(词性标注)、PANX (命名实体识别)
阅读理解:XQuAD、MLQA、TyDiQA(片段抽取型阅读理解)
句子检索:BUCC、Tatoeba(跨语言文本检索)
与以往单语言自然语言理解评测任务不同的是,XTREME中的每一个任务都覆盖了多种语言,评测的是模型在多种语言上的理解能力平均指标,因此对系统模型的多语言理解与跨语言迁移能力要求大大提高。
其难度可想而知,榜单上的模型也代表了多语言模型的顶尖水平,因此获得了众多机构和高校的广泛关注。
机器是怎么做到多语言理解的?
本次哈工大讯飞联合实验室提交的CoFe模型以总成绩84.1分位居XTREME评测榜首,有三大法宝:
加入了自主研发的跨语言对比学习技术,鼓励模型学习不同语言中的语义相似性。
利用知识蒸馏技术进行自监督学习和知识迁移,进一步提升了模型在各个语言上效果的稳定性。
创新性地融入了细粒度的语言学特征,帮助模型克服训练不足的困难,解决低资源语言学习不充分的问题,同时使之适应不同语言的形态学特点。
也就是说,通过本土语言学习,机器可以在少量其他语言语料的情况下,通过“类比”学会这门语言,减少了收集语料、语音标注等大量工作。
这就是多语言理解与跨语言迁移能力!
发布少数民族语言预训练模型CINO
“要让中文语音技术由中国人做到最好。”
成立至今,科大讯飞初心未改,持续关注并积极推动中文相关信息处理技术的研究与发展。少数民族语言处理是中文信息处理中不可缺少的一环,也是中文信息处理多样性的一种体现。这项技术的进步将极大改善我国少数民族语言学习问题。
目前由于国内少数民族语言语料稀缺、获取难度大等原因,相关技术研究相对匮乏,而主流的多语言模型也无法很好地处理国内少数民族语言文字。
为了促进中国少数民族语言信息处理的研究与发展,近期科大讯飞发布了首个面向少数民族语言的多语言预训练模型CINO (Chinese mINOrity pre-trained language model),弥补相关资源的空白,并将相关预训练模型和任务数据开源。希望未来进一步促进业内少数民族语言相关的技术研究,推动少数民族语言相关技术的应用落地。
未来支持各少数民族语言的多语言搜索引擎等文字应用工具或将成为可能。