1.一种会议记录数据智能清洗方法,其特征在于,所述方法包括:获取当前完成的会议内的M个会议主题,以及完成的会议记录,M为大于1的整数;
对所述会议记录内的记录数据进行划分,获得多个记录数据,并对所述多个记录数据进行词语划分,获得多个词语集合;
对所述多个词语集合进行词性分析和缺失分析,在至少一个词语集合出现词性缺失时,获取N个异常词语集合,N为大于1的整数;
对所述N个异常词语集合内的词语进行会议主题分析,获得对应的N个会议主题,并分析获取所述N个异常词语集合的N个异常系数;
分别判断所述N个异常系数是否大于预设系数阈值,将判断结果为否的Q个异常词语集合和Q个会议主题分别输入缺失数据补充模型,获得Q个补充分析结果集合,其中,每个补充分析结果集合内补充分析结果的数量与Q个异常系数正相关,将判断结果为是的N‑Q个异常词语集合进行记录和报警,Q为大于等于0小于等于N的整数;
分别采用所述Q个补充分析结果集合内出现频率最高的补充分析结果,对所述Q个异常词语集合进行补充处理,获得Q个清洗记录数据;
对所述N个异常词语集合内的词语进行会议主题分析,获得对应的N个会议主题,并分析获取所述N个异常词语集合的N个异常系数,包括:根据历史时间内进行会议的记录数据,构建会议关键词数据库,其中,所述会议关键词数据库包括多个样本会议主题对应的多个子数据库;
将所述N个异常词语集合内的词语在所述多个子数据库内进行遍历检索,获取每个词语在所述多个子数据库内出现的次数,获得多个出现次数集合;
将每个出现次数集合内最大的出现次数对应的子数据库的会议主题进行输出,获得所述N个会议主题;
获取所述N个异常词语集合内的词语在所述N个会议主题的子数据库内出现的总次数,获得N个总次数;
计算每个总次数与所述N个总次数均值的比值,获得所述N个异常系数;
将Q个异常词语集合和Q个会议主题分别输入缺失数据补充模型,获得Q个补充分析结果集合,包括:根据历史时间内进行会议的记录数据,获取多个样本异常词语集合和多个样本补充分析结果;
在所述多个样本异常词语集合和所述多个样本补充分析结果随机选择P组数据,作为第一构建数据集,构建所述缺失数据补充模型内的第一缺失数据补充单元,P为大于1且小于所述多个样本异常词语集合的数量的整数;
再次在所述多个样本异常词语集合和所述多个样本补充分析结果随机选择P组数据,作为第二构建数据集,构建所述缺失数据补充模型内的第二缺失数据补充单元;
继续构建所述缺失数据补充模型内的J个缺失数据补充单元,获得所述缺失数据补充模型,J为大于2的整数;
根据所述Q个异常系数,计算获取Q个分析次数;
将所述Q个异常词语集合和Q个会议主题分别输入所述缺失数据补充模型内所述Q个分析次数的缺失数据补充单元内,获得所述Q个补充分析结果集合;
根据所述Q个异常系数,计算获取Q个分析次数,包括:
将J/2作为预设分析次数;
根据所述Q个异常系数和所述预设分析次数,在J的范围内进行计算,获得所述Q个分析次数;
构建所述缺失数据补充模型内的第一缺失数据补充单元,包括:
对所述第一构建数据集进行数据标识和划分,获得训练集、验证集和测试集;
以异常词语集合为输入数据,以补充分析结果作为输出数据,基于BP神经网络,构建所述第一缺失数据补充单元;
采用所述训练集,对所述第一缺失数据补充单元进行监督训练,根据预测值和真实值的误差,对网络参数进行调整更新,直到达到收敛条件;
采用所述验证集和测试集对所述第一缺失数据补充单元进行验证和测试,在满足准确率要求的情况下,获得所述第一缺失数据补充单元。
2.根据权利要求1所述的方法,其特征在于,对所述会议记录内的记录数据进行划分,获得多个记录数据,并对所述多个记录数据进行词语划分,包括:按照预设划分规则,对所述会议记录内的多个记录数据进行划分;
对所述多个记录数据进行分词处理,获得所述多个词语集合。
3.根据权利要求1所述的方法,其特征在于,对所述多个词语集合进行词性分析和缺失分析,在至少一个词语集合出现词性缺失时,获取N个异常词语集合,包括:基于预设词性数据库,将所述多个词语集合输入所述预设词性数据库内,获得多个词性信息集合,其中,所述预设词性数据库内包括多个样本词语与多个样本词性的映射关系;
判断所述多个词性信息集合内是否缺少多种必要词性中的至少一种,若否,则判断为正常,若是,则判断为词性缺失,在至少一个词性信息集合出现词性缺失时,将对应的词语集合作为所述N个异常词语集合。
4.一种会议记录数据智能清洗系统,其特征在于,所述系统用于执行权利要求1‑3任一项所述的方法,所述系统包括:会议记录获取模块,所述会议记录获取模块用于获取当前完成的会议内的M个会议主题,以及完成的会议记录,M为大于1的整数;
数据划分模块,所述数据划分模块用于对所述会议记录内的记录数据进行划分,获得多个记录数据,并对所述多个记录数据进行词语划分,获得多个词语集合;
词语集合分析模块,所述词语集合分析模块用于对所述多个词语集合进行词性分析和缺失分析,在至少一个词语集合出现词性缺失时,获取N个异常词语集合,N为大于1的整数;
会议主题分析模块,所述会议主题分析模块用于对所述N个异常词语集合内的词语进行会议主题分析,获得对应的N个会议主题,并分析获取所述N个异常词语集合的N个异常系数;
异常系数判断模块,所述异常系数判断模块用于分别判断所述N个异常系数是否大于预设系数阈值,将判断结果为否的Q个异常词语集合和Q个会议主题分别输入缺失数据补充模型,获得Q个补充分析结果集合,其中,每个补充分析结果集合内补充分析结果的数量与Q个异常系数正相关,将判断结果为是的N‑Q个异常词语集合进行记录和报警,Q为大于等于0小于等于N的整数;
补充处理模块,所述补充处理模块用于分别采用所述Q个补充分析结果集合内出现频率最高的补充分析结果,对所述Q个异常词语集合进行补充处理,获得Q个清洗记录数据。