1.一种问答数据增强方法,其特征在于,所述方法包括:
获取问答数据集,所述问答数据集包括多个数据点,以及每个数据点对应的真实标签;
基于预训练的预测模型和所述真实标签,对所述问答数据集中的每个数据点进行第一软标签预测,得到所述问答数据集中每个数据点对应的第一软标签;
将所述问答数据集中每个数据点及其对应的所述第一软标签构建为软标签数据集,利用知识蒸馏技术将所述软标签数据集和预测模型生成标注模型;获取待标签数据集,将所述待标签数据集输入到所述标注模型进行预标注,并根据标注结果对所述待标签数据集进行筛选,得到标注样本集;
其中,所述基于预训练的预测模型和所述真实标签,对所述问答数据集中的每个数据点进行第一软标签预测,得到所述问答数据集中每个数据点对应的第一软标签包括:将所述数据点对应的所述真实标签输入到所述预测模型进行第一软标签的第一轮预测,得到第一轮预测结果;
将上一轮预测结果作为输入,利用预测模型对所述问答数据集每个数据点进行第一软标签的m轮预测,得到所述第一软标签,其中m>1;
其中,所述利用预测模型对所述问答数据集每个数据点进行第一软标签的m轮预测,得到所述第一软标签包括:根据第m轮与第m‑1轮的预测结果计算交叉熵损失函数;
当所述损失函数小于第三预设数值,则停止预测,将所述第m轮的预测结果作为第一软标签输出,其中m≥2。
2.根据权利要求1所述的问答数据增强方法,其特征在于,所述获取待标签数据集包括:向数据库发送调用请求,所述调用请求携带验签令牌;
接收所述数据库返回的验签结果,并在验签结果为通过时,调用所述数据库中的所述待标签数据集。
3.根据权利要求1所述的问答数据增强方法,其特征在于,所述将所述待标签数据集输入到所述标注模型进行预标注,并根据标注结果对所述待标签数据集进行筛选,得到标注样本集包括:将所述待标签数据集中的待标签数据点输入到所述标注模型进行预标注得到标注结果,并计算每一个所述标注结果的置信度大小;
将所述标注结果的置信度大小与第一预设数值进行比较,删除置信度小于等于第一预设数值的所述标注结果和所述待标签数据点,并将所述待标签数据集中剩余的所述待标签数据点及其对应的所述标注结果组成所述标注样本集。
4.根据权利要求1所述的问答数据增强方法,其特征在于,在所述获取待标签数据集,将所述待标签数据集输入到所述标注模型进行预标注,并根据标注结果对所述待标签数据集进行筛选,得到标注样本集之后,还包括:计算所述标注样本集中的数据点数量与所述待标签数据集中的待标签数据点数量的比值;
若所述比值小于第二预设数值,则组合所述标注样本集和所述问答数据集,重新对所述预测模型进行训练,直至所述比值大于等于所述第二预设数值为止。
5.根据权利要求1至4中任一项所述的问答数据增强方法,其特征在于,所述基于预训练的预测模型和所述真实标签,对所述问答数据集中的每个数据点进行第一软标签预测之前,还包括:将所述多个数据点向量化;
将向量化后的所述数据点通过交互处理得到新的向量表示;
将所述新的向量表示经过线性变换后得到的结果,再经过分类网络处理后得到第二软标签;
根据所述数据点对应的所述真实标签和所述第二软标签计算交叉熵损失函数,并基于所述交叉熵损失函数对初始预测模型的各层的权重参数进行调整,得到预训练的所述预测模型。
6.一种问答数据增强装置,其特征在于,包括:
获取模块,用于获取问答数据集,所述问答数据集包括多个数据点,以及每个数据点对应的真实标签;
预测模块,用于基于预训练的预测模型和所述真实标签,对所述问答数据集中的每个数据点进行第一软标签预测,得到所述问答数据集中每个数据点对应的第一软标签;生成模块,用于将所述问答数据集中每个数据点及其对应的所述第一软标签构建为软标签数据集,利用知识蒸馏技术将所述软标签数据集和预测模型生成标注模型;筛选预测模块,用于获取待标签数据集,将所述待标签数据集输入到所述标注模型进行预标注,并根据标注结果对所述待标签数据集进行筛选,得到标注样本集;
其中,所述预测模块包括第一轮预测子模块和多轮预测子模块;所述第一轮预测子模块用于将所述数据点对应的所述真实标签输入到所述预测模型进行第一软标签的第一轮预测,得到第一轮预测结果;所述多轮预测子模块用于将上一轮预测结果作为输入,利用预测模型对所述问答数据集每个数据点进行第一软标签的m轮预测,得到所述第一软标签,其中m>1;
其中,所述多轮预测子模块包括判断单元和软标签输出单元;所述判断单元根据第m轮与第m‑1轮的预测结果计算交叉熵损失函数;所述软标签输出单元用于当所述损失函数小于第三预设数值,则停止预测,将所述第m轮的作为第一软标签输出,其中m≥2。
7.一种计算机设备,其特征在于,所述计算机设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有计算机可读指令,所述处理器执行所述计算机可读指令时实现如权利要求1至5中任一所述的问答数据增强方法。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如权利要求1至5中任一所述的问答数据增强方法。