1.一种基于神经网络的司法领域关系抽取方法,其特征在于,包含:
S1、获取司法领域非结构化文本数据,然后通过文本预处理,获取每个文本的结论部分,分词后将其作为语料集,并生成每个语料集对应的实体三元组;
S2、对所述司法领域非结构化文本数据进行TF-IDF词频统计,得到不同罪名及案由所一起构成的特征集;
S3、分别得到预料集和特征集的向量表示,然后将语料集向量和特征集向量进行拼接,从而得到语料集的最终向量序列表示;
S4、对最终向量序列表示进行神经网络训练,得到面向司法领域的关系抽取模型;
S5、利用所述关系抽取模型,对待处理的司法领域非结构化文本数据进行司法领域关系抽取,得到对应的实体三元组。
2.根据权利要求1所述的基于神经网络的司法领域关系抽取方法,其特征在于,步骤S1中,获取司法领域非结构化文本数据是指从中国裁判文书网爬取非结构化文本数据集,包含刑事判决书和刑事裁定书两种文本。
3.根据权利要求1所述的基于神经网络的司法领域关系抽取方法,其特征在于,特征集向量为语料集每个词的词向量*(1+TF-IDF词频权重)。
4.根据权利要求1所述的基于神经网络的司法领域关系抽取方法,其特征在于,步骤S3中得到预料集和特征集的向量表示的方法为采用Word2Vec模型或者Bert模型得到向量表示。
5.根据权利要求1所述的基于神经网络的司法领域关系抽取方法,其特征在于,语料集向量由Word Embeddings和Position Embeddings拼接而成,Word Embeddings生成每条语料集的词向量,维度记为dw,Position Embeddings生成每条语料集的位置向量,维度记为dp;特征集向量为语料集每个词的词向量*(1+TF-IDF词频权重),维度记为dti,特征集向量的向量序列表示为语料集的最终向量序列表示为w={w1,w2,...,wm};
其中,wi=Rd,d=dw+dp*2+dti。
6.一种基于神经网络的司法领域关系抽取系统,其特征在于,包含:
语料集获取模块,用于获取司法领域非结构化文本数据,然后通过文本预处理,获取每个文本的结论部分,分词后将其作为语料集,并生成每个语料集对应的实体三元组;
特征集获取模块,用于对所述司法领域非结构化文本数据进行TF-IDF词频统计,得到不同罪名及案由所一起构成的特征集;
最终向量序列表示模块,用于分别得到预料集和特征集的向量表示,然后将语料集向量和特征集向量进行拼接,从而得到语料集的最终向量序列表示;
模型训练模块,用于对最终向量序列表示进行神经网络训练,得到面向司法领域的关系抽取模型;
关系抽取模块,用于利用所述关系抽取模型,对待处理的司法领域非结构化文本数据进行司法领域关系抽取,得到对应的实体三元组。
7.根据权利要求6所述的基于神经网络的司法领域关系抽取系统,其特征在于,语料集获取模块中,获取司法领域非结构化文本数据是指从中国裁判文书网爬取非结构化文本数据集,包含刑事判决书和刑事裁定书两种文本。
8.根据权利要求6所述的基于神经网络的司法领域关系抽取系统,其特征在于,特征集向量为语料集每个词的词向量*(1+TF-IDF词频权重)。
9.根据权利要求6所述的基于神经网络的司法领域关系抽取系统,其特征在于,最终向量序列表示模块中得到预料集和特征集的向量表示的方法为采用Word2Vec模型或者Bert模型得到向量表示。
10.根据权利要求6所述的基于神经网络的司法领域关系抽取系统,其特征在于,语料集向量由Word Embeddings和Position Embeddings拼接而成,Word Embeddings生成每条语料集的词向量,维度记为dw,Position Embeddings生成每条语料集的位置向量,维度记为dp;特征集向量为语料集每个词的词向量*(1+TF-IDF词频权重),维度记为dti,特征集向量的向量序列表示为语料集的最终向量序列表示为w={w1,w2,...,wm};
其中,wi=Rd,d=dw+dp*2+dti。