1.一种文本数据溯源方法,其特征在于,所述溯源方法包括:当请求者访问文本数据时,获取与所述请求者的身份信息对应的身份编码;
对所述文本数据中的内容进行语义分析,以获取所述文本数据中的多个替换实体;
在预设的同义实体库中根据每一替换实体的语义进行同义查询、并确认与每一所述替换实体同义的多个同义实体;
将每一所述替换实体对应的多个同义实体输入于预设容积计算公式进行计算,以得到与所述文本数据对应的替换总容积;
结合每一所述替换实体对应的多个同义实体、所述替换总容积以及所述身份编码进行综合计算,以确认与每一所述替换实体对应的至少一同义实体,并将所述同义实体与所述替换实体进行同义替换,使得当前文本数据替换于与所述身份编码对应的同义文本数据;
在所述将每一所述替换实体对应的多个同义实体输入于预设容积计算公式进行计算,以得到与所述文本数据对应的替换总容积的步骤中,所述容积计算公式为:其中,C为替换总容积,m为替换实体的数量,k
在所述结合每一所述替换实体对应的多个同义实体、所述替换总容积以及所述身份编码进行综合计算的步骤中,包括:判断所述身份编码的数值是否在所述替换总容积的数值范围之内;
若否,则所述身份编码的数值将根据所述替换总容积的数值进行取余,以构建取余编码;
根据所述取余编码和第n个所述替换实体对应的同义实体的数量进行计算,确认与第n个所述替换实体对应的至少一同义实体;
其中,所述取余编码的数值小于所述身份编码的数值,且所述取余编码的数值在所述替换总容积的数值范围之内;
在所述则所述身份编码的数值将根据所述替换总容积的数值进行取余,以构建取余编码的步骤中,所述构建取余编码的公式为:其中,ɡ为取余编码的数值,G为身份编码的数值,C为替换总容积的数值;
在所述结合每一所述替换实体对应的多个同义实体、所述替换总容积以及所述身份编码进行综合计算,以确认与每一所述替换实体对应的至少一同义实体的步骤中,包括:当确认第n个所述替换实体对应的同义实体时,根据所述取余编码的百分比和第n个替换实体对应的同义实体的数量进行计算;
其中,确认第n个所述替换实体对应的同义实体的计算公式为:其中,P
当确认第n+1个所述替换实体对应的同义实体时,获取与第n个替换实体中对应的取余编码和对应的同义实体的数量进行计算,以得到第n个取余编码;
根据第n个取余编码的百分比和第n+1个替换实体对应的同义实体的数量进行计算,以确认第n+1个所述替换实体对应的同义实体;
其中,第n个取余编码的计算公式为:
其中,ɡ
所述根据第n个取余编码的百分比和第n+1个替换实体对应的同义实体的数量进行计算的计算公式为:其中,p
2.根据权利要求1所述的文本数据溯源方法,其特征在于,在所述使得当前文本数据替换于与所述身份编码对应的同义文本数据的步骤之后,还包括;
当获取所述同义文本数据中的一部分内容时,根据一部分内容中的同义实体确认对应的文本数据;
将一部分内容中的同义实体与文本数据中的同义实体进行对比,以获取同义文本数据中的另一部分内容,并将另一部分内容中的同义实体标记为未知的同义实体;
结合未知的同义实体和一部分内容中的同义实体以构成替换向量;
在访问数据库中查找文本数据的历史记录,并根据文本数据的历史记录和替换向量以得到多个余弦相似度;
将多个余弦相似度进行排序,以确定相似度最高的至少一身份编码。
3.根据权利要求1所述的文本数据溯源方法,其特征在于,在所述当请求者访问文本数据时,获取与所述请求者的身份信息对应的身份编码的步骤中,还包括:当请求者访问文本数据时,判断当前请求者是否访问过文本数据;
若是,则在访问数据库中根据请求者的历史记录获取与所述请求者的身份信息对应的身份编码;
若否,则访问数据库根据原有的身份编码之外生成与所述请求者的身份信息对应的身份编码。
4.一种文本数据溯源系统,其特征在于,所述系统包括:获取模块,用于当请求者访问文本数据时,获取与所述请求者的身份信息对应的身份编码;
语义分析模块,用于对所述文本数据中的内容进行语义分析,以获取所述文本数据中的多个替换实体;
查询模块,用于在预设的同义实体库中根据每一替换实体的语义进行同义查询、并确认与每一所述替换实体同义的多个同义实体;
计算模块,用于将每一所述替换实体对应的多个同义实体输入于预设容积计算公式进行计算,以得到与所述文本数据对应的替换总容积;
还用于结合每一所述替换实体对应的多个同义实体、所述替换总容积以及所述身份编码进行综合计算,以确认与每一所述替换实体对应的至少一同义实体;
替换模块,用于将所述同义实体与所述替换实体进行同义替换,使得当前文本数据替换于与所述身份编码对应的同义文本数据;
在所述将每一所述替换实体对应的多个同义实体输入于预设容积计算公式进行计算,以得到与所述文本数据对应的替换总容积的步骤中,所述容积计算公式为:其中,C为替换总容积,m为替换实体的数量,k
在所述结合每一所述替换实体对应的多个同义实体、所述替换总容积以及所述身份编码进行综合计算的步骤中,包括:判断所述身份编码的数值是否在所述替换总容积的数值范围之内;
若否,则所述身份编码的数值将根据所述替换总容积的数值进行取余,以构建取余编码;
根据所述取余编码和第n个所述替换实体对应的同义实体的数量进行计算,确认与第n个所述替换实体对应的至少一同义实体;
其中,所述取余编码的数值小于所述身份编码的数值,且所述取余编码的数值在所述替换总容积的数值范围之内;
在所述则所述身份编码的数值将根据所述替换总容积的数值进行取余,以构建取余编码的步骤中,所述构建取余编码的公式为:其中,ɡ为取余编码的数值,G为身份编码的数值,C为替换总容积的数值;
在所述结合每一所述替换实体对应的多个同义实体、所述替换总容积以及所述身份编码进行综合计算,以确认与每一所述替换实体对应的至少一同义实体的步骤中,包括:当确认第n个所述替换实体对应的同义实体时,根据所述取余编码的百分比和第n个替换实体对应的同义实体的数量进行计算;
其中,确认第n个所述替换实体对应的同义实体的计算公式为:其中,P
当确认第n+1个所述替换实体对应的同义实体时,获取与第n个替换实体中对应的取余编码和对应的同义实体的数量进行计算,以得到第n个取余编码;
根据第n个取余编码的百分比和第n+1个替换实体对应的同义实体的数量进行计算,以确认第n+1个所述替换实体对应的同义实体;
其中,第n个取余编码的计算公式为:
其中,ɡ
所述根据第n个取余编码的百分比和第n+1个替换实体对应的同义实体的数量进行计算的计算公式为:其中,p
5.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-3任一的文本数据溯源方法。
6.一种文本数据溯源方法设备,其特征在于,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时实现如权利要求1-3任一的文本数据溯源方法。