1.一种基于多视角对比学习的文本检索方法,其特征在于:包括如下步骤:S1:对于一个有标签的语料库;
S11:通过BM25算法召回和查询相关的top-k文档,在剔除查询对应的地面真值文档后,构建BM25负样本;
S12:利用BM25负样本通过InfoNCE损失训练一个基于BERT的双编码器,然后使用训练好的双编码器在语料库中检索最相关的top-k文档,在剔除地面真值后构建神经负样本;
通过S12得到训练实例集T,T中的每个训练实例由一组文本对组成,qS2:构建和训练MvCR整体框架:包括Cross-type对比学习模块和Inner-type对比学习模块,其中Cross-type对比学习模块包括两个独立的稠密编码器E克隆BERT
对于BERT
c
c
其中sim(·)函数计算两个向量之间的点积,n为负样本的个数;
S21:Inner-type对比学习模块:采用一个额外的平均池化层对
对于查询对比学习模块BERT
对于文档对比学习模块BERT
在公式(7)和公式(8)中,N为批次的大小,sim(·)函数计算两个向量之间的点积;
S22:Cross-type对比学习模块:希望
其中,sim(·)函数计算两个向量之间的点积,n为负样本的个数;
S23:联合上述损失,采用线性组合定义最终的训练损失函数:将S1得到的训练实例集T中的训练实例输入MvCR整体框架,当损失LossS3:对于一个新查询,将该新查询输入训练好的MvCR整体框架,训练好的MvCR整体框架输出在语料库中检索的最相关的top-k’文档。
2.如权利要求1所述的一种基于多视角对比学习的文本检索方法,其特征在于:所述S2训练MvCR的整体框架时,考虑采用动态权重去组合Loss其中,α表示Cross_Loss