欢迎来到知嘟嘟! 联系电话:13336804447 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13336804447
知嘟嘟经纪人
收藏
专利号: 2022105782616
申请人: 重庆大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2025-04-14
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于多视角对比学习的文本检索方法,其特征在于:包括如下步骤:S1:对于一个有标签的语料库;

S11:通过BM25算法召回和查询相关的top-k文档,在剔除查询对应的地面真值文档后,构建BM25负样本;

S12:利用BM25负样本通过InfoNCE损失训练一个基于BERT的双编码器,然后使用训练好的双编码器在语料库中检索最相关的top-k文档,在剔除地面真值后构建神经负样本;

通过S12得到训练实例集T,T中的每个训练实例由一组文本对组成,qS2:构建和训练MvCR整体框架:包括Cross-type对比学习模块和Inner-type对比学习模块,其中Cross-type对比学习模块包括两个独立的稠密编码器E克隆BERT

对于BERT

c

c

其中sim(·)函数计算两个向量之间的点积,n为负样本的个数;

S21:Inner-type对比学习模块:采用一个额外的平均池化层对

对于查询对比学习模块BERT

对于文档对比学习模块BERT

在公式(7)和公式(8)中,N为批次的大小,sim(·)函数计算两个向量之间的点积;

S22:Cross-type对比学习模块:希望

其中,sim(·)函数计算两个向量之间的点积,n为负样本的个数;

S23:联合上述损失,采用线性组合定义最终的训练损失函数:将S1得到的训练实例集T中的训练实例输入MvCR整体框架,当损失LossS3:对于一个新查询,将该新查询输入训练好的MvCR整体框架,训练好的MvCR整体框架输出在语料库中检索的最相关的top-k’文档。

2.如权利要求1所述的一种基于多视角对比学习的文本检索方法,其特征在于:所述S2训练MvCR的整体框架时,考虑采用动态权重去组合Loss其中,α表示Cross_Loss