1.一种基于兴趣度模型与类型因子的高校图书推荐方法,其特征在于,所述推荐方法包括以下步骤:第一步,基于K近邻算法的读者聚类
采用K近邻算法将目标读者与其k个近邻读者聚类成一个只包含近距离数据的集合;
使用读者的借阅信息、专业、年级三个维度的相似度作为聚类的标准,如下:
1.1)借阅信息相似度
读者u和读者v借阅了相同的类型的图书数目越多,表明两者的相似度越高;设bo(u,i)表示读者u是否借阅了图书i,book(u)表示读者u所有借阅图书的集合,则:用simr(u,v)表示读者u和读者v借阅相同书籍的数量,并以此作为两者在借阅信息特征方向的相似度:其中,B表示所有图书集合;
1.2)专业相似度
读者u和读者v的专业相似度表示为:
其中p(u)表示用户u的专业,parentp(u,v)表示读者u和读者v在专业分类树中最近父节点的所在层数,layerall表示整个专业分类树的层数,是个常量;
1.3)检索次数
相同年级的学生读者的课程及学习进度很可能也相似,所以这些读者有借阅相同书籍的可能性,设读者u和读者v的年级分别为g(u)和个g(v),则两者的年级相似度simg(u,v)表示为:
1.4)综合相似度
基于上述读者u和读者v的三个特征向量借阅信息、专业、性别构建的综合特征向量的相似度sim(u,v)为:sim(u,v)=α×simr(u,v)+β×simp(u,v)+(1-α-β)×simg(u,v) (5)其中α和β为调整参数,因为不同的特征向量对读者之间的相似性的影响是不同的,通过实验结果调整α和β的值,找到最佳的参数值,K近邻算法使用sim(u,v)作为聚类的标准;
第二步,使用图书借阅行为数据推算,建立读者对图书兴趣度的模型,提出了一种使用图书借阅行为数据推算读者对图书兴趣度的模型,该模型分两步,第一初步计算读者对图书的兴趣度,第二考虑读者的借阅习惯对其进行修正计算,过程如下:
2.1)获得兴趣度值
读者对一本书借阅的时间越长表示他对这本书越感兴趣,考虑到书籍页数与阅读时间成正比,计算每本书平均每页借阅时长由以下公式算得:其中Tr(u,i)表示读者u返还图书i的时间,Tb(u,i)表示读者u借阅图书i的时间,page(i)表示图书i的总页数;若借阅时间处于寒暑假,或者逾期时间超过20%未归还,则将该条数据作为噪声数据去除;
用下列公式将其特征缩放为0至1之间的数值,用来表示用户对图书的兴趣度:
2.2)修正计算
用平均借阅时间来对兴趣度进行修正,最终的兴趣度like(u,i)如下表示:其中,count(book(u))表示读者u借阅图书集合的数量;
第三步,添加类型因子计算目标读者对未借图书的兴趣度来提高推荐的准确率,并对其排序得到一个Top-N的推荐列表,过程如下:
3.1)图书类型因子计算
根据中国图书馆图书分类法,计算两本图书之间的类型因子factor(i,j):其中,b.length是图书编号的总位数,k是图书i和图书j编号中最后一个相同字符的位置下标;
3.2)计算目标用户对目标图书的兴趣度
假设目标用户为u,v∈Uk是聚类后的目标用户的近邻用户,计算目标用户对已借图书集合的平均兴趣度,近邻用户对其已借图书集合的平均兴趣度:其中 表示目标用户对已借图书集合的平均兴趣度, 表示近邻用户对其已借图书集合的平均兴趣度,接着计算目标的用户则对目标图书兴趣度:sim(u,v)是由公式(5)得到的用户综合相似度,factor(i,j)是类型因子,根据运算结果,将预测出的目标读者ui对图书兴趣度进行排名,得到一个top-N的推荐集合Li={|u=ui,1≤j≤n,bj∈books}。