1.一种模型训练方法,包括:
获取用户在人机交互过程中输入的对话信息;
利用模板匹配方式,识别所述对话信息中涉及用户语义的关键实体信息;
对所述关键实体信息进行编码,得到编码向量;
基于所述编码向量,并利用第一意图识别模型,获得用户意图的概率分布;
基于所述编码向量,并利用第一循环神经网络,获得对话状态的状态向量,其中,不同的所述对话状态对应不同的规则,与所述规则对应的对话状态是在满足与所述规则对应的所需条件后进入的;
基于所述对话信息,并利用第一命名实体识别模型,获得实体信息;
对所述实体信息进行编码,得到实体向量;
对所述用户意图的概率分布、所述状态向量和所述实体向量进行拼接,得到拼接向量;
基于所述拼接向量,并利用第一行为决策模型,获得对应的机器行为的概率分布,以便机器在人机交互过程中基于所述机器行为的概率分布做出的对应的机器行为;
获取用户针对所述机器行为输入的反馈信息,其中,所述反馈信息指示对话系统是否完成了用户的对话目标,所述反馈信息包括第一奖励值、第二奖励值和第三奖励值至少之一,所述第一奖励值用于指示用户认为所述对话系统完成了用户的对话目标,所述第二奖励值用于指示用户认为所述对话系统未完成任何对话目标,所述第三奖励值是在对话停止时用户继续询问的情况下被重新设置的;
将所述机器行为的概率分布、所述反馈信息以及所述拼接向量作为训练数据存入数据库;以及响应于所述数据库中的训练数据达到预设数据量,基于所述数据库中的训练数据,并利用强化学习算法在线对以下模型中的至少之一进行模型优化训练:所述第一意图识别模型、所述第一循环神经网络、所述第一命名实体识别模型以及所述第一行为决策模型,以减少用户询问的次数。
2.根据权利要求1所述的方法,其中,基于所述数据库中的训练数据,并利用强化学习算法在线进行模型优化训练,包括:从所述数据库中随机选取训练数据;以及
基于随机选取的训练数据,并利用强化学习算法在线进行模型优化训练。
3.根据权利要求1所述的方法,还包括以下至少之一:
在对所述第一意图识别模型进行优化训练的情况下,对所述第一意图识别模型的全连接层进行优化训练;
在对所述第一行为决策模型进行优化训练的情况下,对所述第一行为决策模型的全连接层进行优化训练。
4.一种模型训练装置,包括:
第一获取模块,用于获取用户在人机交互过程中输入的对话信息;
第一预测模块,用于利用模板匹配方式,识别所述对话信息中涉及用户语义的关键实体信息;对所述关键实体信息进行编码,得到编码向量;基于所述编码向量,并利用第一意图识别模型,获得用户意图的概率分布;基于所述编码向量,并利用第一循环神经网络,获得对话状态的状态向量,其中,不同的所述对话状态对应不同的规则,与所述规则对应的对话状态是在满足与所述规则对应的所需条件后进入的;基于所述对话信息,并利用第一命名实体识别模型,获得实体信息;对所述实体信息进行编码,得到实体向量;对所述用户意图的概率分布、所述状态向量和所述实体向量进行拼接,得到拼接向量;
第二预测模块,用于基于所述拼接向量,并利用第一行为决策模型,获得对应的机器行为的概率分布,以便机器在人机交互过程中基于所述机器行为的概率分布做出的对应的机器行为;
第二获取模块,用于获取用户针对所述机器行为输入的反馈信息,其中,所述反馈信息指示对话系统是否完成了用户的对话目标,所述反馈信息包括第一奖励值、第二奖励值和第三奖励值至少之v,所述第一奖励值用于指示用户认为所述对话系统完成了用户的对话目标,所述第二奖励值用于指示用户认为所述对话系统未完成任何对话目标,所述第三奖励值是在对话停止时用户继续询问的情况下被重新设置的;
存储模块,用于将所述机器行为的概率分布、所述反馈信息以及所述拼接向量作为训练数据存入数据库;以及优化训练模块,用于响应于所述数据库中的训练数据达到预设数据量,基于所述数据库中的训练数据,并利用强化学习算法在线对以下模型中的至少之一进行模型优化训练:所述第一意图识别模型、所述第一循环神经网络、所述第一命名实体识别模型以及所述第一行为决策模型,以减少用户询问的次数。
5.根据权利要求4所述的装置,其中,所述优化训练模块包括:选取单元,用于从所述数据库中随机选取训练数据;以及
第一优化训练单元,用于基于随机选取的训练数据,并利用强化学习算法在线进行模型优化训练。
6.根据权利要求4所述的装置,所述优化训练模块包括以下至少之一:第二优化训练单元,用于在对所述第一意图识别模型进行优化训练的情况下,对所述第一意图识别模型的全连接层进行优化训练;
第三优化训练单元,用于在对所述第一行为决策模型进行优化训练的情况下,对所述第一行为决策模型的全连接层进行优化训练。
7.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-3中任一项所述的方法。
8.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使计算机执行根据权利要求1-3中任一项所述的方法。
9.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-3中任一项所述的方法。