金融壹账通获国际AI大赛冠军 Gamma Lab:信息抽取技术已用于金融合约场景

2020-03-23 12:45

近日,金融壹账通旗下人工智能研究院Gamma Lab参加第十四届国际语义评测比赛,并在自有文本信息抽取竞赛中获得了两个子任务排行榜的冠军。这是Gamma Lab继微表情识别、面部动作单元识别、机器阅读理解、自然语言生成、情绪识别、深度学习模型推理性能以外,又一新人工智能技术取得世界第一的好成绩。

SemEval是由ACL(Association for Computational Linguistics,国际计算语言学会)词汇和语义小组SIGLEX和SIGSEM组织的词汇与语义计算领域的国际性权威技术竞赛。该赛事从1998年开始举办,参赛者覆盖国内外一流大学、知名公司,这也意味着该赛事代表着最新国际技术和水平。

在本次SemEval2020中,金融壹账通Gamma Lab团队自主研发的自由文本信息抽取系统,以87.83%和84.71%的准确率拔得头筹,登顶自由文本信息抽取竞赛子任务一和子任务二的排行榜。

1

3

Gamma lab此次参加了SemEval-2020中的任务6,即自由文本信息抽取竞赛(Extracting Definitions from Free Text in TextbooksDeftEval,DeftEval)。该竞赛的具体任务为从专业领域的自由文本中提取学术定义。

在本次竞赛中,DeftEval被进一步分为三个子任务:子任务1为句子级别信息抽取,从文章中抽取包含定义的句子;子任务2为实体信息抽取,从文章中抽出术语、别称、定义、引用等信息;子任务3为关系抽取。这三个子任务基本涵盖了信息抽取领域的各个方面。

主办方提供了两万多条从专业工具书中筛选的句子用于参赛队伍设计算法模型,覆盖生物,历史,物理,心理学,金融,社会,政治等领域。“此次比赛中的文章难度非常大,涉及金融、政治、物理、生物等非常专业的领域,很多专业概念的理解需要具备很高的知识背景。”Gamma Lab人工智能科学家表示,此次竞赛还有一难点在于句子句式非常复杂,对涉及倒装、跨句、交叉引用等复杂句式的理解提出了更高的要求。

4

2

金融壹账通Gamma lab的信息抽取技术采用多任务学习框架,将句子分类、实体识别和关系抽取这三个任务由统一的信息抽取模型来进行建模。依托Gamma Lab在语言模型预训练领域和信息抽取领域的深厚积累,在专业文档语料上引入实体相关的自监督任务并进一步训练了24层的大型transformer模型,以提升预训练模型在专业文档上的性能。同时采用自主研发的数据增强和半监督学习方法有效的克服了数据不平衡问题。此外,Gamma lab还以图神经网络引入了语法树的先验信息,借此提升了算法在复杂句式上的性能。

金融壹账通Gamma Lab团队汇聚众多人工智能、大数据专家,累计申请专利技术200多项。据团队人工智能科学家介绍,此次竞赛中使用的实体识别、关系抽取、文本分类等信息抽取技术对实践普惠金融、助力传统金融机构科技化转型具有重要意义。

例如,金融壹账通为解决金融行业普遍存在的诸如文本撰写效率低、操作风险高、萝卜章防控难、履约监控难、信息不对称、纠纷取证难等问题打造的智慧合约云平台,就应用了此项技术。智慧合约云平台有效帮助金融机构实现合约管理的端到端线上化的平台,满足了金融机构用户对合约全周期、全流程的智能管理需求,基于银行、基金、证券、信托、租赁、期货、保险7大金融行业合约,形成1000多份标准合约模版。平台完成了对企业的拟约、签约以及履约全环节进行智能化升级。

具体而言,智慧合约云平台就运用了以信息抽取技术为基础的加马金融文本标签化中台,通过提取1000类目标因子,分析80类表格,可智能化处理募集说明书、计划说明书、招股书、审计报告、资产评估报告、公司条款等文件。目前已在证券、不动产等场景落地,实践显示,在运用智慧合约云平台可有效减少50%~85%人工处理材料时间,降低80%操作风险,人力成本减少2/3,运营效率提升2倍。在疫情期间,金融机构可以通过智慧合约云平台可以确保在意愿真实、合法合规的前提下,随时随地完成线上电子签约。

此外,金融壹账通推出了疫情政策解析程序,该程序使用中台相关技术对各级政策文书进行分析、归类,以帮助中小微企业及时、精准获知最新相关政策。目前2.0版本覆盖整个广东省的疫情政策,包括21个市、211个区,共100条政策,政策细则条目数1003条,月调用量达到百万量级。

5

加马金融文本标签化中台链接:https://ai.pingan.com/gammao/#/prod/serviceDetails/15827037810865505736