1.基于金融文本数据分类存储方法,其特征在于,该方法包括以下步骤:获取各金融文本数据,采用双向最大匹配法对金融文本数据进行分词获取各词汇的词向量;
将各词汇的词向量记为各节点;根据任意两个节点之间的夹角以及模长获取任意两个节点之间的距离度量;构建各节点与周围邻近节点在各维度下的数据差异;根据各节点的上下文信息在所有维度下的数据差异构建各节点在不同出现次数下的置信度;结合置信度以及任意两个节点在同一句子中的出现情况获取任意两个节点之间修正后的距离度量;
采用CABDDCG聚类算法,根据修正后的距离度量获取金融文本数据的各初始连通图;在使用聚类算法将初始连通图划分为各连通子图的过程中,基于各节点在连通子图中的密度分布构建连通子图内各节点的局部密度;根据连通子图内各节点的局部密度构建连通子图的承受系数阈值,得到优化后的各聚类子簇;
基于各聚类子簇内的节点获取金融文本数据的关键词,采用神经网络对金融文本数据的关键词进行分类,实现金融文本数据的分类存储;
所述根据各节点的上下文信息在所有维度下的数据差异构建各节点在不同出现次数下的置信度,表达式为:其中,
所述采用CABDDCG聚类算法,根据修正后的距离度量获取金融文本数据的各初始连通图,包括:将所有节点之间修正后的距离度量的下四分位数作为预设阈值,将所述预设阈值作为CABDDCG聚类算法中构建连接矩阵的距离参数,通过CABDDCG聚类算法得到金融文本数据的各初始聚类簇;
将各初始聚类簇内的所有节点基于连接矩阵进行连通,得到各初始连通图;
所述根据连通子图内各节点的局部密度构建连通子图的承受系数阈值,包括:其中,
2.如权利要求1所述的基于金融文本数据分类存储方法,其特征在于,所述根据任意两个节点之间的夹角以及模长获取任意两个节点之间的距离度量,表达式为:其中,
3.如权利要求1所述的基于金融文本数据分类存储方法,其特征在于,所述构建各节点与周围邻近节点在各维度下的数据差异,包括:计算各节点与其预设邻域内的所有节点在各维度下数值之间的差值绝对值的和值,将所述和值作为各节点与周围邻近节点在各维度下的数据差异。
4.如权利要求1所述的基于金融文本数据分类存储方法,其特征在于,所述结合置信度以及任意两个节点在同一句子中的出现情况获取任意两个节点之间修正后的距离度量,表达式为:其中,
5.如权利要求1所述的基于金融文本数据分类存储方法,其特征在于,所述基于各节点在连通子图中的密度分布构建连通子图内各节点的局部密度,表达式为:其中,
6.如权利要求1所述的基于金融文本数据分类存储方法,其特征在于,所述基于各聚类子簇内的节点获取金融文本数据的关键词,包括:对于节点数量大于预设数量阈值的各聚类子簇,获取各聚类子簇内各节点对应词汇的TF-IDF值;将各聚类子簇中最大的TF-IDF值对应词汇作为各聚类子簇的关键词;将金融文本数据中所有聚类子簇的关键词作为金融文本数据的关键词。
7.基于金融文本数据分类存储系统,包括存储器、处理器以及存储在所述存储器中并在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-6任意一项所述方法的步骤。