欢迎来到知嘟嘟! 联系电话:13336804447 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13336804447
知嘟嘟经纪人
收藏
专利号: 2019101453961
申请人: 中国地质大学(武汉)
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2024-01-05
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于神经网络的司法领域关系抽取方法,其特征在于,包含:

S1、获取司法领域非结构化文本数据,然后通过文本预处理,获取每个文本的结论部分,分词后将其作为语料集,并生成每个语料集对应的实体三元组;

S2、对所述司法领域非结构化文本数据进行TF-IDF词频统计,得到不同罪名及案由所一起构成的特征集;

S3、分别得到预料集和特征集的向量表示,然后将语料集向量和特征集向量进行拼接,从而得到语料集的最终向量序列表示;

S4、对最终向量序列表示进行神经网络训练,得到面向司法领域的关系抽取模型;

S5、利用所述关系抽取模型,对待处理的司法领域非结构化文本数据进行司法领域关系抽取,得到对应的实体三元组。

2.根据权利要求1所述的基于神经网络的司法领域关系抽取方法,其特征在于,步骤S1中,获取司法领域非结构化文本数据是指从中国裁判文书网爬取非结构化文本数据集,包含刑事判决书和刑事裁定书两种文本。

3.根据权利要求1所述的基于神经网络的司法领域关系抽取方法,其特征在于,特征集向量为语料集每个词的词向量*(1+TF-IDF词频权重)。

4.根据权利要求1所述的基于神经网络的司法领域关系抽取方法,其特征在于,步骤S3中得到预料集和特征集的向量表示的方法为采用Word2Vec模型或者Bert模型得到向量表示。

5.根据权利要求1所述的基于神经网络的司法领域关系抽取方法,其特征在于,语料集向量由Word Embeddings和Position Embeddings拼接而成,Word Embeddings生成每条语料集的词向量,维度记为dw,Position Embeddings生成每条语料集的位置向量,维度记为dp;特征集向量为语料集每个词的词向量*(1+TF-IDF词频权重),维度记为dti,特征集向量的向量序列表示为语料集的最终向量序列表示为w={w1,w2,...,wm};

其中,wi=Rd,d=dw+dp*2+dti。

6.一种基于神经网络的司法领域关系抽取系统,其特征在于,包含:

语料集获取模块,用于获取司法领域非结构化文本数据,然后通过文本预处理,获取每个文本的结论部分,分词后将其作为语料集,并生成每个语料集对应的实体三元组;

特征集获取模块,用于对所述司法领域非结构化文本数据进行TF-IDF词频统计,得到不同罪名及案由所一起构成的特征集;

最终向量序列表示模块,用于分别得到预料集和特征集的向量表示,然后将语料集向量和特征集向量进行拼接,从而得到语料集的最终向量序列表示;

模型训练模块,用于对最终向量序列表示进行神经网络训练,得到面向司法领域的关系抽取模型;

关系抽取模块,用于利用所述关系抽取模型,对待处理的司法领域非结构化文本数据进行司法领域关系抽取,得到对应的实体三元组。

7.根据权利要求6所述的基于神经网络的司法领域关系抽取系统,其特征在于,语料集获取模块中,获取司法领域非结构化文本数据是指从中国裁判文书网爬取非结构化文本数据集,包含刑事判决书和刑事裁定书两种文本。

8.根据权利要求6所述的基于神经网络的司法领域关系抽取系统,其特征在于,特征集向量为语料集每个词的词向量*(1+TF-IDF词频权重)。

9.根据权利要求6所述的基于神经网络的司法领域关系抽取系统,其特征在于,最终向量序列表示模块中得到预料集和特征集的向量表示的方法为采用Word2Vec模型或者Bert模型得到向量表示。

10.根据权利要求6所述的基于神经网络的司法领域关系抽取系统,其特征在于,语料集向量由Word Embeddings和Position Embeddings拼接而成,Word Embeddings生成每条语料集的词向量,维度记为dw,Position Embeddings生成每条语料集的位置向量,维度记为dp;特征集向量为语料集每个词的词向量*(1+TF-IDF词频权重),维度记为dti,特征集向量的向量序列表示为语料集的最终向量序列表示为w={w1,w2,...,wm};

其中,wi=Rd,d=dw+dp*2+dti。