欢迎来到知嘟嘟! 联系电话:13336804447 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13336804447
知嘟嘟经纪人
收藏
专利号: 2021105675249
申请人: 暨南大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2026-04-06
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于强化学习的个性化短视频推荐方法,其特征在于,包括如下步骤:S1、收集单个用户的历史记录,进行数据处理,得到真实数据分布和专家轨迹;

S2、将真实数据分布输入GAN‑SD算法,对用户的特征进行建模,得到用户特征分布;

S3.将用户特征分布和专家轨迹输入到MAIL算法,对用户与推荐引擎的交互行为建模,得到用户的决策函数;

S4、建模推荐引擎和用户的马尔科夫决策过程,用TRPO+ANC算法训练推荐引擎的马尔科夫决策过程,根据得到的累积回报值确定不同动作下的短视频推荐策略,从短视频推荐策略中选择最优的短视频推荐策略;

S5、得到用户定制化的短视频推荐策略,将该策略加载为实际使用的推荐引擎。

2.根据权利要求1所述的基于强化学习的个性化短视频推荐方法,其特征在于,所述真实数据分布具体表示为:

其中Xi表示第i个用户感兴趣的视频。

3.根据权利要求1所述的基于强化学习的个性化短视频推荐方法,其特征在于,所述专家轨迹具体表示为:

其中的si表示推荐引擎推荐的第i个视频, 表示用户对si所做出的动作,包括直接切换下一个视频、点赞和退出软件。

4.根据权利要求1所述的基于强化学习的个性化短视频推荐方法,其特征在于,所述步骤S2具体包括:

S21、将判别模型D和生成模型G分别用参数θD,θG表示,使用随机初始化;

S22、从正态分布中生成一个批次的噪声z,从真实数据分布中取出一个批次的样本数据x,通过梯度下降更新参数θG;

S23、重复步骤S22多次;

S24、从正态分布中生成一个批次的噪声z,从真实数据分布中取出一个批次的样本数据x,通过梯度下降更新参数θD;

S25、重复步骤S22‑S24,直至判别模型D和生成模型G收敛;

S26、得到收敛的生成模型G,作为用户特征分布。

5.根据权利要求1所述的基于强化学习的个性化短视频推荐方法,其特征在于,所述步骤S3中MAIL算法将推荐引擎的策略函数πσ与用户的策略函数 联合为

6.根据权利要求5所述的基于强化学习的个性化短视频推荐方法,其特征在于,所述步骤S3中,根据用户特征分布,推荐引擎与用户进行互动,生成一系列轨迹,从生成的轨迹中采样一条轨迹,通过最小化表达式,更新用户的奖励函数,在用户的马尔科夫决策过程中使用RL优化 重复多次得到训练完成的用户策略函数。

7.根据权利要求1所述的基于强化学习的个性化短视频推荐方法,其特征在于,在所述步骤S4中,推荐引擎的马尔科夫决策过程表示为 其中状态 为推荐引擎根据用户喜好进行推荐的视频,动作 为对小视频进行排序,依据为用户感兴趣程度的降序,转移函数 为在状态s下给定动作a,映射到下一个状态,具体定义为:c

其中a 为用户采取的动作, 为用户特征分布, 为奖励函数,当用户进行了点赞,奖励为1,否则为0,π为策略函数,表示在状态s下,执行动作a的概率。

8.根据权利要求1所述的基于强化学习的个性化短视频推荐方法,其特征在于,在所述步骤S4中,用户的马尔科夫决策过程表示为 其中状态 定义为

s,a>,动作 为用户的动作,转移函数 为在状态s下给定动作a ,映射到下一个状态,具体定义为:

c c

其中a 为用户采取的动作, 为用户特征分布, 为奖励函数,π为策略函数,表示在c c

状态s下,执行动作a的概率。

9.一种基于强化学习的个性化短视频推荐系统,其特征在于,包括中央处理器和存储器,所述存储器中存储有可以被所述中央处理器运行的程序,所述中央处理器通过运行所述程序可以实现如权利要求1‑8中任一项所述的基于强化学习的个性化短视频推荐方法。

10.一种计算机存储介质,其特征在于,存储有可以被中央处理器运行的程序,所述程序在被所述中央处理器运行的过程中可以实现如权利要求1‑8中任一项所述的基于强化学习的个性化短视频推荐方法。