1.一种基于在线学习的网络资源推荐方法,其特征在于,包括:根据用户针对展示的网络资源的反馈日志,对用于推荐网络资源的数据模型进行训练;
基于所述数据模型对需要推荐的网络资源按照E&E算法进行打分和推荐;
对推荐的网络资源进行展示。
2.根据权利要求1所述的方法,其特征在于,按照E&E算法进行打分和推荐的操作具体包括:按照ε-greedy算法、置信度上界UCB算法、抽样方法算法、Ranked Bandits算法、Contextual Bandits算法、和Reinforcement Learning算法中的一种算法、或两种以上算法相结合,进行打分和推荐。
3.根据权利要求1或2所述的方法,其特征在于,根据用户针对展示的网络资源的反馈日志,对用于推荐网络资源的数据模型进行训练的操作具体包括:获取用户对展示的网络资源的反馈日志,其中所述反馈日志包括用户行为信息;
将所述反馈日志进行预处理形成结构化的数据样本;
根据所述数据样本对用于推荐网络资源的数据模型进行训练。
4.根据权利要求3所述的方法,其特征在于,获取用户对推荐的网络资源的反馈日志的操作具体包括:通过实时的方式或按照周期获取用户对推荐的网络资源的反馈日志。
5.根据权利要求3所述的方法,其特征在于,将所述反馈日志进行预处理形成结构化的数据样本的操作具体包括:从所述反馈日志中查询用户的静态属性和当前的动态属性;
计算所述展示的网络资源的预设维度的权值;
将用户的静态属性和当前的动态属性,以及所述展示的网络资源在各预设维度的权值,拟合成结构化的收益/损失数据,作为数据样本。
6.根据权利要求3所述的方法,其特征在于,所述用户行为信息包括对网络资源的点击、下载和/或浏览。
7.根据权利要求3所述的方法,其特征在于,所述反馈日志还包括用户信息。
8.根据权利要求7所述的方法,其特征在于,所述用户信息包括用户ID、用户兴趣点以及该兴趣点的权重。
9.根据权利要求1或2所述的方法,其特征在于,所述数据模型为线性回归模型、非线性回归模型、Learning To Rank模型、或马尔柯夫决策规则MDP模型。
10.一种基于在线学习的网络资源推荐装置,其特征在于,包括:模型训练单元,用于根据用户针对展示的网络资源的反馈日志,对用于推荐网络资源的数据模型进行训练;
资源推荐单元,用于基于所述数据模型对需要推荐的网络资源按照E&E算法进行打分和推荐;
资源展示单元,用于对推荐的网络资源进行展示。
11.根据权利要求10所述的装置,其特征在于,所述资源推荐单元中按照E&E算法进行打分和推荐具体包括:按照ε-greedy算法、置信度上界UCB算法、抽样装置算法、Ranked Bandits算法、Contextual Bandits算法、和Reinforcement Learning算法中的一种算法、或两种以上算法相结合,进行打分和推荐。
12.根据权利要求11或12所述的装置,其特征在于,所述模型训练单元具体包括:反馈日志获取子单元,用于获取用户对展示的网络资源的反馈日志,其中所述反馈日志包括用户行为信息;
反馈日志预处理子单元,用于将所述反馈日志进行预处理形成结构化的数据样本;
样本训练子单元,用于根据所述数据样本对用于推荐网络资源的数据模型进行训练。
13.根据权利要求12所述的装置,其特征在于,所述反馈日志获取子单元具体用于:通过实时的方式或按照周期获取用户对推荐的网络资源的反馈日志。
14.根据权利要求12所述的装置,其特征在于,所述反馈日志预处理子单元具体用于:从所述反馈日志中查询用户的静态属性和当前的动态属性;
计算所述展示的网络资源的预设维度的权值;
将用户的静态属性和当前的动态属性,以及所述展示的网络资源在各预设维度的权值,拟合成结构化的收益/损失数据,作为数据样本。