招行申请基于大模型的多领域信息查询专利：提出MoE部署架构，降低显存需求-移动支付网

招行申请基于大模型的多领域信息查询专利：提出MoE部署架构，降低显存需求

木子剑移动支付网2024/11/7 13:07:03

招商银行正申请一项名为“基于大模型的面向多领域的信息查询方法、装置、设备及存储介质”的发明专利。其申请于2024年7月12日，公布于2024年11月1日，涉及信息查询技术领域。

方法包括：获取用户输入的信息查询请求；对信息查询请求进行语义分析获得目标关键词；根据目标关键词对预设查询模型进行模型路由获得目标查询模型；预设查询模型为由若干个专家子模型构成的大模型，且各专家子模型分别对应一种领域；通过目标查询模型对信息查询请求进行数据分析，获得目标查询信息。

而获取用户输入的信息查询请求之前，还需要：获取初始基座模型对应的初始配置文件；基于初始配置文件将若干个专家子模型加载到初始基座模型中，获得预设查询模型。

更具体的，基于初始配置文件将若干个专家子模型加载到初始基座模型中，获得预设查询模型的步骤，包括：获取若干个专家子模型对应的领域配置参数；领域配置参数包括功能关键词；将领域配置参数加载到初始配置文件中，获得目标配置文件；根据目标配置文件将若干个专家子模型加载到初始基座模型中，获得预设查询模型。

其中，根据目标配置文件将若干个专家子模型加载到初始基座模型中，获得预设查询模型的步骤，包括：对初始基座模型进行遍历，获得模块标识信息；根据模块标识信息和预设模块更新表确定初始基座模型中的待更新模块；基于目标配置文件和待更新模块从若干个专家子模型中确定替换专家模型；将初始基座模型中的待更新模块替换为对应的替换专家模型，获得预设查询模型。

而将初始基座模型中的待更新模块替换为对应的替换专家模型，获得预设查询模型的步骤，还包括：将初始基座模型中的待更新模块替换为对应的替换专家模型，获得中间查询模型；根据目标配置文件获取替换专家模型对应的目标专家层参数；基于目标专家层参数对中间查询模型进行模型参数加载，获得预设查询模型。

基于目标专家层参数对中间查询模型进行模型参数加载，获得预设查询模型的步骤，则包括：获取目标微调模式信息；基于目标微调模式信息和预设映射规则将目标专家层参数加载到中间查询模型中对应的替换专家模型，获得预设查询模型。

另外，该方法中，根据目标关键词对预设查询模型进行模型路由，获得目标查询模型的步骤，包括：根据目标关键词对预设查询模型进行遍历匹配，获得功能关键词与目标关键词匹配的目标专家子模型；根据目标专家子模型确定目标查询模型。

说明书提到该发明的背景为，目前，大模型不仅在智能问答领域有出色的表现，还可应用在其他特定领域，如：科技外规检测、搜索意图识别、广告文案生成等。然而，大模型占用空间十分大，因此对搭载设备要求较高。即使规模较小的7B（指模型内有70亿个可训练参数）版本基座模型，通常也要求搭建设备有约14G的显存。

而若欲跨多个领域（假设领域个数为n）部署大模型时，现有方法常通过加载相同的预训练模型参数，再独立微调后得到各领域对应的n个大模型，再将它们部署在同一个显卡中，使得显存需求剧增n倍。因此现有面向多领域的基于大模型的信息查询方法部署成本高，对搭载设备的显卡要求高，适用范围小。

考虑到生产资源有限的问题，该发明针对多垂直领域大模型部署场景，提出了一种资源集约MoE（Mixture of Experts，混合专家）部署架构，能够在显存资源有限的前提下，高效利用显存加载多垂直领域大模型。

该发明将不同领域的专家子模型集成为预设查询模型，不需装载多个大模型，减少显存需求；同时，在计算时，通过对预设查询模型进行模型路由，并只基于目标查询模型进行前向计算，进一步减少显存计算。因此该发明可降低对显存的需求，扩大适用范围。

本文为作者授权发布，不代表移动支付网立场，转载请注明作者及来源，未按照规范转载者，移动支付网保留追究相应责任的权利。


展开全文