1.一种获取NLP分类领域阳性样本方法,其特征在于,包括下述步骤:获取公开数据预训练模型和专有数据预训练模型;
拼接公开数据预训练模型和专有数据预训练模型的编码层,得到向量编码模型;
获取种子样本集和专有数据集中的待识别文本,将待识别文本输入向量编码模型中进行编码,确定种子向量和专有文本向量,并对专有文本向量构建索引,得到向量索引,所述种子样本集由阳性样本构成;
基于所述种子向量在专有数据集中进行相似向量搜索,并通过所述向量索引获取对应的专有文本,以更新所述种子样本集,得到预期数量的阳性样本;
所述获取种子样本和专有文本数据中的待识别文本,对种子样本和专有文本数据进行编码,确定种子向量和专有文本向量,并对专有文本向量构建索引的步骤具体包括:获取种子样本和专有文本数据中的待识别文本,将待识别文本输入向量编码模型中进行编码,获取种子向量和专有文本向量;
对专有文本向量建立向量索引,并存储专有文本向量与所述专有文本对应关系;
所述基于所述种子向量在专有数据集中进行相似向量搜索,并通过所述向量索引获取对应的专有文本,以更新所述种子样本集,得到预期数量的阳性样本的步骤具体包括:步骤A:在专有数据集中,以种子向量搜索相似向量对应的专有文本,并将搜索到的专有文本作为阳性样本进行标注;
步骤B:将标注后的阳性样本合并到所述种子样本集,作为新的种子样本集;
重复步骤A至步骤B,直到所述新的种子样本集中的阳性样本达到预设数量;
所述获取种子样本和专有文本数据中的待识别文本,对种子样本和专有文本数据进行编码,获取种子向量和专有文本向量的步骤具体包括:获取种子样本和专有文本数据中的待识别文本,确定所述待识别文本对应的多个编码种类;
识别待识别文本中的文字,确定所述待识别文本使用的语言;
根据预设的各种语言和编码种类的对应关系,确定所述待识别文本对应的所属编码种类。
2.根据权利要求1所述的获取NLP分类领域阳性样本方法,其特征在于,所述在专有数据集中,以种子向量搜索相似向量对应的专有文本的步骤具体包括:依次比对目标向量与所述专有数据集中各个聚类中心的距离,选择出与目标向量最为接近的若干个聚类中心;
获取所述聚类中心所对应聚类中的所有向量,依次计算各向量与目标向量的距离,选择出距离最为接近的若干个相似向量;
通过所述专有文本向量与所述专有文本对应关系,确定所述相似向量对应的专有文本。
3.根据权利要求1所述的获取NLP分类领域阳性样本方法,其特征在于,所述获取公开数据预训练模型和专有数据预训练模型的步骤具体包括:采用公开数据集对预训练模型进行预训练,获取公开数据预训练模型;
从预设数据库中提取专有场景下的专有数据集,对预训练模型进行预训练,获取专有数据预训练模型。
4.根据权利要求3所述的获取NLP分类领域阳性样本方法,其特征在于,所述采用公开数据集对预训练模型进行预训练,获取公开数据预训练模型或采用专有数据集对预训练模型进行预训练,获取专有数据预训练模型的步骤具体包括:获取初始训练模型、初始去噪自编码模型和初始序列模型,其中,所述初始去噪自编码模型和初始序列到序列模型分别与所述初始训练模型的输出端连接;
获取公开数据集和专有数据集作为训练样本集,所述训练样本集包括样本数据、原始文本中的遮蔽字词和原始文本音韵信息;
将公开数据集或专有数据集中的样本数据输入到所述初始训练模型,通过所述初始去噪自编码模型预测输入文本中进行随机修改的字词,通过所述初始序列模型预测包含输入文本的输出文本数据;
将原始文本中的遮蔽字词作为所述初始去噪自编码模型的期望输出,并将原始文本音韵信息作为所述初始序列模型的期望输出,分别计算初始去噪自编码模型和初始序列到序列模型的损失值,并进行加权求平均,直到加权求平均后的值满足预设的收敛条件后,得到训练后的公开数据预训练模型或专有数据预训练模型。
5.一种获取NLP分类领域阳性样本装置,其特征在于,所述获取NLP分类领域阳性样本装置实现如权利要求1至4任一项所述的获取NLP分类领域阳性样本方法,所述获取NLP分类领域阳性样本装置包括:获取模块,用于获取公开数据预训练模型和专有数据预训练模型;
拼接模块,用于接公开数据预训练模型和专有数据预训练模型,得到向量编码模型;
构建模块,用于获取种子样本和专有文本数据中的待识别文本,确定种子向量和专有文本向量,并对专有文本向量构建索引,得到向量索引;
搜索模块,用于基于种子向量在专有数据集中进行向量搜索,并通过所述向量索引获取对应的专有文本,得到预期数量的阳性样本。
6.一种计算机设备,其特征在于,包括至少一个存储器和至少一个处理器,所述存储器中存储有计算机可读指令,所述处理器执行所述计算机可读指令时实现如权利要求1至4任一项所述的获取NLP分类领域阳性样本方法的步骤。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如权利要求1至4中任一项所述的获取NLP分类领域阳性样本方法的步骤。