1.一种基于互联网文本描述数据的软件共性特征提取方法,其特征在于,所述基于互联网文本描述数据的软件共性特征提取方法包括:获取互联网软件公开文本的软件描述文本、用户评分数据和下载量数据;
根据软件描述文本得到互联网公开文本的软件特征;
根据用户评分数据选择重要软件特征;
根据下载量数据挖掘面向用户的特征关联关系。
2.如权利要求1所述的基于互联网文本描述数据的软件共性特征提取方法,其特征在于,所述根据软件描述文本得到联网公开文本的软件特征,包括:对软件描述文本进行预处理;
构建句子相似性网络;
发现句子相似性网络中的句子社区;
确定句子社区的特征描述符。
3.如权利要求2所述的基于互联网文本描述数据的软件共性特征提取方法,其特征在于,所述对软件描述文本进行预处理,包括:对软件描述文本进行去冗余处理;
对软件描述文本进行分句、分词、去停用词、词干化和降维处理。
4.如权利要求3所述的基于互联网文本描述数据的软件共性特征提取方法,其特征在于,所述构建句子相似性网络,包括:通过下面公式度量软件描述文本中句子之间的相似性:其中,idf为逆文档频率,si和sj为两个句子,wk为句子中的第k个单词。
5.如权利要求4所述的基于互联网文本描述数据的软件共性特征提取方法,其特征在于,所述发现句子相似性网络中的句子社区,包括:所述句子相似性网络为加权网络,句子相似性网络中的边代表句子之间的相似性;选择句子相似性网络中未分配社区、且附着于权重最大边的一个节点作为句子社区发现的种子节点。
6.如权利要求5所述的基于互联网文本描述数据的软件共性特征提取方法,其特征在于,所述发现句子相似性网络中的句子社区之后,还包括:通过如下公式度量节点对于一个社区的适配性:其中,Ein是社区中节点之间边的集合,Eout为社区中的节点与社区外节点相连边的集合。
7.如权利要求6所述的基于互联网文本描述数据的软件共性特征提取方法,其特征在于,所述确定句子社区的特征描述符,包括:通过如下公式度量每个句子社区的熵:
其中, 表示包含句子si的社区个数,句子社区的熵代表了一个句子社区与其他句子社区之间的重叠大小;
从当前还未选择特征描述符的句子社区中,选择熵最小的一个社区进行特征描述符的选择。
8.如权利要求7所述的基于互联网文本描述数据的软件共性特征提取方法,其特征在于,所述选择熵最小的一个社区进行特征描述符的选择,包括将当前还未选择特征描述符的每个句子社区分别看作一个文档,该文档包含了该句子社区中的所有句子;
利用TF-IDF方式计算当前熵最小的句子社区中的每个单词的TF-IDF值;
将社区中的每个句子转换为TF-IDF向量,选择离句子社区中心最近的句子作为该句子社区的特征描述符。
9.如权利要求8所述的基于互联网文本描述数据的软件共性特征提取方法,其特征在于,所述根据用户评分数据选择重要软件特征,包括:计算所有软件的平均用户评分,根据软件用户评分与平均用户评分之间的大小关系,将每个软件的用户评分离散化为1和0,即大于平均用户评分的软件用户评分为1,小于平均用户评分的软件用户评分则为0;
根据软公开文本的下载量数据和用户评分数据,构建软件-特征-用户评分矩阵;
基于构建的软件-特征-用户评分矩阵,
利用随机逻辑回归对提取的软件特征进行打分,保留分值不为0的软件特征;
对构建的软件-特征-用户评分矩阵进行约简,利用逻辑回归学习软件特征与软件用户评分之间的关系,为软件特征配置与软件用户评分大小相关的系数;
根据每个软件特征的系数大小,选择重要软件特征,即对于一个软件特征来说,其系数越大则越优先被选择为重要软件特征。
10.如权利要求9所述的基于互联网文本描述数据的软件共性特征提取方法,其特征在于,所述根据下载量数据挖掘面向用户的特征关联关系,包括:根据软公开文本的下载量数据和软件特征,构建产品-特征-下载量矩阵;
根据产品-特征-下载量矩阵,利用关联规则挖据方法挖掘面向用户的特征关联关系。