12月12日,北京银行金融科技子公司北银金科一项名为“一种银行业大语言模型训练方法”的专利公布,其申请于2023年10月9日。
摘要显示,步骤S1:构建模型训练数据集;步骤S2:基于银行词表训练模型分词器;步骤S3:基于llama预训练模型增量训练,构建大模型底座;步骤S4:使用提示工程进行指令微调;步骤S5:强化学习微调大模型。
据悉,该方法基于任务场景为导向进行模型训练,使用通用语料、金融语料、银行内部文本数据构建训练数据集,使用SentencePiece的BPE算法进行分词器训练,基于llama 13b模型为大模型基座进行无监督训练,使用指令微调进行监督训练,并使用强化学习方法进行输出对齐。
大模型在银行业的应用场景包括客服服务与支持、知识问答及检索式问答、内容审核、辅助式文本写作、文本分类/情感分析、实体识别、三元组知识抽取等。该方法使用构造符合银行业务场景的数据集训练模型,以及指令微调、强化学习训练,使模型能够更好的理解银行业务语义,输出准确、合规的回答。
其中,步骤S1具体包括:预训练数据集,对于数据使用基于启发式规则和质量模型打分,对数据集进行篇章和句子粒度的过滤;在全量数据上,利用局部敏感哈希方法,对篇章和句子粒度做滤重;指令微调数据集。
步骤S2具体包括:基于知识库整理行内专用词典,词典包括银行业的行业术语词汇、理财产品名称以及特有数字词汇,专用词典共有4300个词汇;在使用sentencepiece训练分词器时加载专用词表以保证文本里的专用词汇不被分开,训练数据为1.1小结构造的预训练无监督文本数据,训练设置vocba_size为25k;将训练完的tokenizer与原始llama tokenizer合并,通过组合词汇表,获得一个合并的tokenizer。
步骤S3包括:Llama 13b模型重训练;Llama的模型架构使用的是Transformer Decoder结构。
步骤S4包括:使用LoRA的方式进行模型微调。
步骤S5具体包括:多种策略产生样本并收集人类反馈,形成强化学习数据集;基于Bloom 7b模型训练奖励模型;一个奖励模型(Reward Model,RM)的目标是刻画模型的输出是否在人类看来表现不错;输入[提示(prompt),模型生成的文本],输出一个刻画文本质量的标量数字;用公式表示如下:
其中,x,y分别表示POST和SUMMARY,rθ表示参数为θ的奖励模型的值,σ表示sigmod函数;奖励模型接收一系列文本并返回一个标量奖励,数值上对应人的偏好;通过训练好的奖励模型预测结果且通过PPO算法优化模型策略,微调大模型。
说明书提到该发明的背景为,自从2022年11月OpenAI公司发布ChatGPT以来,这一强大的语言模型在全球范围内引起了巨大的轰动。其惊人的效果和广泛的应用领域彻底改变了人们对大模型潜力的认识,引爆了各行业对人工智能的期待。大模型是指在自然语言处理和机器学习领域中使用的具有庞大参数量和复杂结构的深度学习模型。这些模型被设计用于处理大规模的文本数据,并且能够自动学习和理解语言的语义、语法和上下文关系。
但是,现有的大语言模型,不管是商业公司训练的还是学术机构开源的,大都基于通用语料进行训练,对银行业务知识理解能力非常一般,且不能支持银行客服、知识库问答等场景,不能满足银行业务需求。
而基于具体银行的业务、知识、数据去训练大语言模型,能够理解银行频繁使用的金额、理财产品名称、办理流程等专业词汇;使用客服对话数据及银行内部知识库做指令训练,使得模型具备客服问答、检索式知识问答等能力;面对不断发展的业务具备快速迭代能力。
展开全文
- 移动支付网 | 2023/9/15 15:15:48
- 移动支付网 | 2024/1/5 11:45:27
- 移动支付网 | 2023/12/18 9:47:06
- 移动支付网 | 2023/12/6 14:21:12
- 移动支付网 | 2023/11/29 15:29:40
- 移动支付网 | 2023/10/26 11:50:20
- 移动支付网 | 2023/10/25 13:27:27
- 移动支付网 | 2023/10/20 12:42:44
- 移动支付网 | 2023/9/14 11:43:32
- 移动支付网 | 2023/9/11 9:40:46
- 移动支付网 | 2023/8/7 11:30:08
- 移动支付网 | 2023/7/12 14:39:47
- 移动支付网 | 2023/6/25 11:32:53
- 移动支付网 | 2023/5/17 11:05:08
- 移动支付网 | 2024/1/8 17:48:03