苏商银行一项发明专利取得授权：基于大模型的催收敏感词质检-移动支付网

苏商银行一项发明专利取得授权：基于大模型的催收敏感词质检

木子剑移动支付网2025/3/21 11:25:16

1月17日，江苏苏商银行一项发明专利“一种基于大模型的催收敏感词质检方法和装置”授权公告，其申请于2023年8月30日，公布于2023年12月1日。

其方法包括：获取线上生成的催收录音；调用翻译模型API接口将催收录音转换出录音文本；对录音文本进行预处理（步骤A，下有详述），并对长文本进行分割，获得输入文本；将输入文本导入原始模型进行质检，输出第一质检结果；构建本地催收合规向量知识库（步骤B，下有详述），基于大语言模型调用向量知识库，并将输入文本导入大语言模型质检，输出第二质检结果；根据历史催收录音数据，并基于大语言模型进行P tuning训练，获得定制大语言模型（步骤C，下有详述）；将输入文本导入定制大语言模型中进行质检，获得第三质检结果；若第一质检结果、第二质检结果和第三质检结果中存在至少一项不合规，则最终的质检结果为不合规。

更具体的，（步骤A）对录音文本进行预处理，包括：去除小于30秒的录音文本，并增加基于专家经验和历史投诉信息的目标标签信息。

（步骤B）构建本地催收合规向量知识库，包括：基于专家经验或历史客户投诉案例，收集催收录音；将催收录音转成录音文本后，筛选出催收员的讲话部分；使用编码软件将录音文本转化成512维的向量，并将转化后的向量存储在数据库中；将待评估的录音文本转化成512维向量后，与数据库中的所有向量进行内积计算，内积越大，相似度越高；若相似度超过设定阈值，则说明对应录音存在历史发生过的不合规问题。

（步骤C）根据历史催收录音数据，并基于大语言模型进行P tuning训练，获得定制大语言模型，包括：收集催收领域的录音和文本数据，并对数据预处理；利用ASR技术识别录音数据，区分出催收人员和逾期用户，并把录音数据转换成文本数据（步骤D，下有详述）；使用专家打标签区分文本数据，根据是否合规打上正负标签，生成训练样本；将训练样本划分为训练集和测试集，训练集用于P tuning训练，测试集用于评估模型效果；配置P tuning模型参数，当模型效果达到设定阈值时，定制大语言模型训练完成；将定制大语言模型部署在生产环境（步骤E，下有详述），可供催收系统通过API的方式进行调用。

而在将输入文本导入大语言模型进行质检之前，还需要：读取内容，获取与用户请求相关的上下文；使用请求内容和上下文内容填充模板，获得提示词；将提示词输入到大语言模型中。

（步骤D）利用ASR技术识别录音数据，区分出催收员和逾期用户，并把录音数据转换成文本数据，包括：利用whisperX模型，指定语言为中文，讲话人为2人；输入录音文件至whisperX模型，输出讲话人和讲话内容文本；根据催收员的固定开场白筛选出催收员的讲话文本数据。

（步骤E）将定制大语言模型部署在生产环境，包括：将定制大语言模型导入到生产环境，模型状态调整为eval模式；使用fastapi接口对外提供API服务；在API上提供需评估的加上提示词的录音文本，即可返回录音文本的评估结果。

说明书提到该发明的背景为，随着金融行业的监管力度加大，对催收行为的合规性要求越来越高。企业需要对催收过程中的敏感词进行识别和过滤，以确保催收行为符合相关法律法规和行业标准，降低潜在的法律风险。贷后催收是金融机构风险管理的重要环节，也是人工介入最多的环节。尤其是传统催收质检领域，主要依靠人工进行，成本高且效率低，不能满足金融催收行业的发展需求。

而该发明可保障合规催收、提高效率、降低成本、减少纠纷。

本文为作者授权发布，不代表移动支付网立场，转载请注明作者及来源，未按照规范转载者，移动支付网保留追究相应责任的权利。


展开全文