1.一种版权资源识别方法,其特征在于,包括:
S1、利用已有的版权资源的标题进行搜索获取正样本语料,并利用非版权资源的标题进行搜索获取负样本语料;
S2、提取正样本语料的特征作为版权资源对应的分类特征,提取负样本语料的特征作为非版权资源对应的分类特征,并计算各分类特征在所属类别中的权值,构成分类模型;
S3、获取待识别资源,对所述待识别资源执行步骤S31至步骤S33:S31、利用所述待识别资源的标题进行搜索,获得待预测语料;
S32、提取待预测语料的分类特征,利用所述分类模型确定所述待识别资源属于版权资源或非版权资源的置信度;
S33、根据所述待识别资源属于版权资源或者非版权资源的置信度,识别所述待识别资源是否为版权资源。
2.根据权利要求1所述的方法,其特征在于,步骤S1中具体包括:获取已有的版权资源和非版权资源的标题;
利用获取到的标题在搜索引擎中进行搜索,将利用已有的版权资源的标题搜索得到的搜索结果、已有的版权资源的标题和已有的版权资源的内容作为正样本语料;将利用已有的非版权资源的标题搜索得到的搜索结果、已有的非版权资源的标题和已有的非版权资源的内容作为负样本语料。
3.根据权利要求1所述的方法,其特征在于,步骤S2中,提取正样本语料和负样本语料的特征,具体包括:对正样本语料和负样本语料进行预处理,分别得到正样本词项集合和负样本词项集合;
用得到的正样本词项集合与预设的特征列表进行匹配,将匹配的词项作为正样本语料的特征;
用得到的负样本词项集合与预设的特征列表进行匹配,将匹配的词项作为负样本语料的特征;
所述预设的特征列表包括关键字特征、领域特征以及站点特征中的至少一种。
4.根据权利要求1所述的方法,其特征在于,所述计算各分类特征在所属类别中的权值是基于各分类特征在所述正样本语料或负样本语料中出现的词频,或者各分类特征的词频-倒文档率计算的。
5.根据权利要求1所述的方法,其特征在于,步骤S31中具体包括:获取所述待识别资源的标题;
利用获取到的标题在搜索引擎中进行搜索,将搜索得到的搜索结果、所述待识别资源的标题和所述待识别资源的内容作为待预测语料。
6.根据权利要求1所述的方法,其特征在于,步骤S32中,提取待预测语料的分类特征,具体包括:对待预测语料进行预处理,得到待预测词项集合;
用得到的待预测词项集合与预设的特征列表进行匹配,将匹配的词项作为待预测语料的分类特征;
所述预设的特征列表包括关键字特征、领域特征以及站点特征中的至少一种。
7.根据权利要求1所述的方法,其特征在于,步骤S33具体为:如果所述待识别资源属于版权资源的置信度大于预设第一阈值N1,将所述待识别资源识别为版权资源;
如果所述待识别资源属于版权资源的置信度小于预设第二阈值N2,将所述待识别资源识别为非版权资源,其中,0<N2≤N1<1;
或者,如果所述待识别资源属于非版权资源的置信度大于预设第三阈值N3,将所述待识别资源识别为非版权资源;
如果所述待识别资源属于非版权资源的置信度小于预设第四阈值N4,将所述待识别资源识别为版权资源,其中,0<N4≤N3<1。
8.一种版权资源识别装置,其特征在于,包括:
训练语料获取模块,用于利用已有的版权资源的标题进行搜索获取正样本语料,并利用非版权资源的标题进行搜索获取负样本语料;
分类模型建立模块,用于提取正样本语料的特征作为版权资源对应的分类特征,提取负样本语料的特征作为非版权资源对应的分类特征,并计算各分类特征在所属类别中的权值,构成分类模型;
待预测语料获取模块,用于获取待识别资源,利用所述待识别资源的标题进行搜索,获得待预测语料;
置信度获取模块,用于提取待预测语料的分类特征,利用所述分类模型确定所述待识别资源属于版权资源或非版权资源的置信度;
识别模块,用于根据所述待识别资源属于版权资源或者非版权资源的置信度,识别所述待识别资源是否为版权资源。
9.根据权利要求8所述的装置,其特征在于,所述训练语料获取模块包括标题获取模块和搜索模块,所述标题获取模块用于获取已有的版权资源和非版权资源的标题;
所述搜索模块用于利用标题获取模块获取的标题在搜索引擎中进行搜索,将利用已有的版权资源的标题搜索得到的搜索结果和已有的版权资源的信息作为正样本语料;将利用已有的非版权资源的标题搜索得到的搜索结果和已有的非版权资源的信息作为负样本语料。
10.根据权利要求8所述的装置,其特征在于,所述分类模型建立模块提取正样本语料和负样本语料的特征时,先对语料进行预处理,用得到的词项集合与预设的特征列表进行匹配,将匹配的词项作为对应语料的特征,所述预设的特征列表包括关键字特征、领域特征以及站点特征中的至少一种。
11.根据权利要求8所述的装置,其特征在于,所述分类模型建立模块计算各分类特征在所属类别中的权值是基于各分类特征在所述正样本语料或负样本语料中出现的词频,或者各分类特征的词频-倒文档率计算的。
12.根据权利要求8所述的装置,其特征在于,所述待预测语料获取模块包括标题获取模块和搜索模块,所述标题获取模块用于获取所述待识别资源的标题;
所述搜索模块用于利用标题获取模块获取到的标题在搜索引擎中进行搜索,将搜索得到的搜索结果、所述待识别资源的标题和所述待识别资源的内容作为待预测语料。
13.根据权利要求8所述的装置,其特征在于,所述置信度获取模块提取待预测语料的分类特征时,先对待预测语料进行预处理,用得到的词项集合与预设的特征列表进行匹配,将匹配的词项作为待预测语料的分类特征,所述预设的特征列表包括关键字特征、领域特征以及站点特征中的至少一种。
14.根据权利要求8所述的装置,其特征在于,所述识别模块如果识别到所述待识别资源属于版权资源的置信度大于预设第一阈值N1,将所述待识别资源识别为版权资源;
如果识别到所述待识别资源属于版权资源的置信度小于预设第二阈值N2,将所述待识别资源识别为非版权资源;其中,0<N2≤N1<1;
或者,如果识别到所述待识别资源属于非版权资源的置信度大于预设第三阈值N3,将所述待识别资源识别为非版权资源;
如果识别到所述待识别资源属于非版权资源的置信度小于预设第四阈值N4,将所述待识别资源识别为版权资源,其中,0<N4≤N3<1。