工行专利:用于识别通过AIGC技术生成的虚假金融信息
木子剑移动支付网2024/4/23 15:43:30

3月22日,工商银行申请的一项名为“金融文本信息的识别方法及装置”的专利公布。其申请于2023年11月9日,涉及人工智能技术领域以及自然语言处理技术领域。据《银行科技研究社》了解,该发明主要用于识别通过AIGC技术生成的虚假金融信息。

方法包括:获取金融文本信息识别请求,请求中包括待识别的金融文本信息;根据待识别的金融文本信息,生成输入特征;将输入特征输入训练好的金融文本信息识别模型,得到金融文本信息识别模型输出的金融文本信息的类型,类型包括虚假生成信息或真实信息。

更具体的,根据待识别的金融文本信息,生成输入特征,具体包括:对金融文本信息进行分割,生成至少两个语句,语句包括标题语句和正文语句;将每个正文语句分别与标题语句进行组合,生成至少两个句对;根据至少两个句对以及金融文本信息,生成输入特征。

根据至少两个句对以及金融文本信息,生成输入特征,又具体包括:将至少两个句对输入预设的词向量模型,得到词向量模型输出的皮尔逊相关系数矩阵;将至少两个句对输入预设的第一BERT模型,得到第一BERT模型输出的语义矩阵;将待识别的金融文本信息输入预设的第二BERT模型,得到第二BERT模型输出的特征矩阵;对皮尔逊相关系数矩阵、语义矩阵以及特征矩阵进行融合,生成输入特征。

其中,预设的词向量模型是利用真实的金融文本信息训练得到的;预设的第一BERT模型是利用STS B数据集对预训练的BERT模型进行语义相似性的增量训练得到的;预设的第二BERT模型是利用真实的金融文本信息以及虚假生成的金融文本信息对预训练的BERT模型进行增量训练得到的。

而金融文本信息识别模型的训练过程为,获取训练样本集中的金融文本信息,其中,训练样本集中包括真实的金融文本信息和虚假生成的金融文本信息,其中虚假生成的金融文本信息是利用文本生成模型根据真实的金融文本信息生成的;根据金融文本信息生成输入特征;以输入特征为输入、以金融文本信息的类型为标签对预设的分类器进行训练,得到金融文本信息识别模型。

另外,金融文本信息识别请求中还包括请求方的用户名和用户密码;因此,根据待识别的金融文本信息,生成输入特征,还需要:根据用户名和用户密码验证金融文本信息识别请求的合法性;若金融文本信息识别请求合法,则根据待识别的金融文本信息,生成输入特征。

说明书提到该发明的背景为,在目前文本生成技术日渐成熟的情况下,文本生成模型极有可能被用于生成虚假金融信息来扰乱当前金融市场。银行从业人员以及相关的客户极有可能受到虚假信息的影响,从而导致对于目前金融市场情况的误判。而目前人工识别培训成本高昂、识别效率和准确率低下。

该发明通过预训练模型识别金融文本信息的真实性,可解决目前人工识别培训成本高昂、识别效率低下和准确率的问题,实现方便快捷地验证金融文本信息的真实性,提高金融机构的服务水平。

值得注意的是,说明书还提到,文本生成模型可以根据以往负面金融信息进行增量训练,用于生成类似信息进行快速传播。针对目前存在的这些问题,工行方面对这些文本生成模型及其常用解码方式生成的语句进行分析发现,生成模型无法精确捕捉长文本的全部信息。这会导致文本生成模型写出的文本包含与原文本弱相关的信息。并且通过核采样方式生成的文本,虽然在生成文本过程中增加了文本的多样性,但同时生成的文本也会因此出现更加明显的语义偏差,在长文本的生成过程中,这会导致生成的文本逐渐偏离原有的语义。

因此,该发明分离出原始金融文本信息的句对,根据句对以及原始金融文本信息生成输入特征。

本文为作者授权发布,不代表移动支付网立场,转载请注明作者及来源,未按照规范转载者,移动支付网保留追究相应责任的权利。

展开全文
相关阅读
资讯查询取消