微众银行申请专利：不过分丢失泛用能力，提高语音大模型对困难样本学习效率-移动支付网

微众银行申请专利：不过分丢失泛用能力，提高语音大模型对困难样本学习效率

木子剑移动支付网2024/11/11 12:03:56

微众银行正申请一项名为“语音大模型训练方法、装置、设备、存储介质以及产品”的发明专利。其申请于2024年8月22日，公布于2024年10月15日，涉及语音识别技术领域。

方法应用于待训练的语音大模型，包括：获取当前批次的训练样本集，其中包括语音标注样本集；将当前批次的训练样本集输入到语音大模型中，得到文本推理结果；基于文本推理结果以及语音标注样本集，确定当前批次的训练样本集中多个训练样本各自对应的困难程度估计值；基于各困难程度估计值，对当前批次的训练样本集进行优化，得到优化后的训练样本集，基于优化后的训练样本集更新语音大模型的模型参数；获取下一批次的训练样本集，并将其确定为新的当前批次的训练样本集以进行下一批次训练；返回执行将当前批次的训练样本集输入到语音大模型中，得到文本推理结果的步骤，以此迭代，直至满足预设训练结束条件后，获得训练完成的语音大模型。

更具体的，文本推理结果包括当前批次的训练样本集对应的当前推理文本和当前模型推理置信度。基于文本推理结果以及语音标注样本集，确定当前批次的训练样本集中多个训练样本各自对应的困难程度估计值的步骤还包括：基于当前推理文本以及语音标注样本集，计算得到当前批次的训练样本集对应的当前预测准确率；基于当前预测准确率确定出模型预测准确率；根据当前模型推理置信度、当前预测准确率和模型预测准确率，计算当前批次的训练样本集中多个训练样本各自对应的困难程度估计值。

其中，基于当前推理文本以及语音标注样本集，计算得到当前批次的训练样本集对应的当前预测准确率的步骤包括：计算当前推理文本与语音标注样本集中的各条文本的编辑距离，以基于各编辑距离确定当前预测准确率。

而基于当前预测准确率确定出模型预测准确率的步骤包括：若不存在当前批次的上一批次的训练样本集，则将当前预测准确率确定为模型预测准确率；若存在当前批次的上一批次的训练样本，则获取当前批次之前的各历史批次的训练样本集对应的历史预测准确率；将当前预测准确率与各历史预测准确率进行合并处理，得到合并准确率，并将合并准确率确定为模型预测准确率。

另外，该方法中，基于各困难程度估计值，对当前批次的训练样本集进行优化，得到优化后的训练样本集的步骤还包括：基于各困难程度估计值，将当前批次的训练样本集中困难程度估计值高于预设阈值的多个训练样本确定为目标训练样本；基于目标训练样本构建样本集，得到优化后的训练样本集。

其中，基于目标训练样本构建样本集，得到优化后的训练样本集的步骤包括：基于目标训练样本各自对应的困难程度估计值进行排序，得到目标训练样本对应的目标样本序列；基于预设的样本筛选比例和目标样本序列进行筛选，得到优化后的训练样本集。

说明书提到该发明的背景为，在语音识别领域中，以Transformer为基础的模型架构成为工业界主流，人们对基于标注数据的语音大模型的模型学习效果也越来越重视。在语音识别领域中，对于语音大模型的训练往往采用正常训练数据和标注数据这两类数据。而在业务需求的驱动下，标注数据一般包括困难样本，也即模型学习有一定困难程度的训练样本。困难样本过少会导致模型过拟合到正常的训练样本数据，也会导致语音大模型对困难样本的学习效果不佳；困难样本过多则会导致模型过拟合到标注数据，导致语音大模型泛用能力不强。

因此，如何在不过分丢失泛用能力的基础上提高语音大模型对困难样本的学习效率是亟须解决的一个问题。该发明旨在解决这个问题，其说明书中对于具体实施方式有着更为详细的阐述。

本文为作者授权发布，不代表移动支付网立场，转载请注明作者及来源，未按照规范转载者，移动支付网保留追究相应责任的权利。


展开全文