欢迎来到知嘟嘟! 联系电话:13336804447 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13336804447
知嘟嘟经纪人
收藏
专利号: 2018116253408
申请人: 河南大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2024-01-05
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于互联网文本描述数据的软件共性特征提取方法,其特征在于,所述基于互联网文本描述数据的软件共性特征提取方法包括:获取互联网软件公开文本的软件描述文本、用户评分数据和下载量数据;

根据软件描述文本得到互联网公开文本的软件特征;

根据用户评分数据选择重要软件特征;

根据下载量数据挖掘面向用户的特征关联关系;

其中,

所述根据软件描述文本得到互 联网公开文本的软件特征,包括:对软件描述文本进行预处理;

构建句子相似性网络,通过下面公式度量软件描述文本中句子之间的相似性:其中,idf为逆文档频率,si和sj为两个句子,wk为句子中的第k个单词;

发现句子相似性网络中的句子社区:所述句子相似性网络为加权网络,句子相似性网络中的边代表句子之间的相似性;选择句子相似性网络中未分配社区、且附着于权重最大边的一个节点作为句子社区发现的种子节点;

通过如下公式度量节点对于一个社区的适配性:其中,Ein是社区中节点之间边的集合,Eout为社区中的节点与社区外节点相连边的集合;

确定句子社区的特征描述符:通过如下公式度量每个句子社区的熵:其中, 表示包含句子si的社区个数,句子社区的熵代表了一个句子社区与其他句子社区之间的重叠大小;

从当前还未选择特征描述符的句子社区中,选择熵最小的一个社区进行特征描述符的选择。

2.如权利要求1所述的基于互联网文本描述数据的软件共性特征提取方法,其特征在于,所述对软件描述文本进行预处理,包括:对软件描述文本进行去冗余处理;

对软件描述文本进行分句、分词、去停用词、词干化和降维处理。

3.如权利要求1所述的基于互联网文本描述数据的软件共性特征提取方法,其特征在于,所述选择熵最小的一个社区进行特征描述符的选择,包括将当前还未选择特征描述符的每个句子社区分别看作一个文档,该文档包含了该句子社区中的所有句子;

利用TF‑IDF方式计算当前熵最小的句子社区中的每个单词的TF‑IDF值;

将社区中的每个句子转换为TF‑IDF向量,选择离句子社区中心最近的句子作为该句子社区的特征描述符。

4.如权利要求1所述的基于互联网文本描述数据的软件共性特征提取方法,其特征在于,所述根据用户评分数据选择重要软件特征,包括:计算所有软件的平均用户评分,根据软件用户评分与平均用户评分之间的大小关系,将每个软件的用户评分离散化为1和0,即大于平均用户评分的软件用户评分为1,小于平均用户评分的软件用户评分则为0;

根据软公开文本的下载量数据和用户评分数据,构建软件特征和用户评分的矩阵;

基于构建的软件特征和用户评分的矩阵,利用随机逻辑回归对提取的软件特征进行打分,保留分值不为0的软件特征;

对构建的软件特征和用户评分的矩阵进行约简,利用逻辑回归学习软件特征与软件用户评分之间的关系,为软件特征配置与软件用户评分大小相关的系数;

根据每个软件特征的系数大小,选择重要软件特征,即对于一个软件特征来说,其系数越大则越优先被选择为重要软件特征。

5.如权利要求4所述的基于互联网文本描述数据的软件共性特征提取方法,其特征在于,所述根据下载量数据挖掘面向用户的特征关联关系,包括:根据公开文本的下载量数据和软件特征,构建软件特征和下载量的矩阵;

根据软件特征和下载量的矩阵,利用关联规则挖据方法挖掘面向用户的特征关联关系。