1.一种基于强化学习的个性化短视频推荐方法,其特征在于,包括如下步骤:S1、收集单个用户的历史记录,进行数据处理,得到真实数据分布和专家轨迹;
S2、将真实数据分布输入GAN‑SD算法,对用户的特征进行建模,得到用户特征分布;
S3.将用户特征分布和专家轨迹输入到MAIL算法,对用户与推荐引擎的交互行为建模,得到用户的决策函数;
S4、建模推荐引擎和用户的马尔科夫决策过程,用TRPO+ANC算法训练推荐引擎的马尔科夫决策过程,根据得到的累积回报值确定不同动作下的短视频推荐策略,从短视频推荐策略中选择最优的短视频推荐策略;
S5、得到用户定制化的短视频推荐策略,将该策略加载为实际使用的推荐引擎。
2.根据权利要求1所述的基于强化学习的个性化短视频推荐方法,其特征在于,所述真实数据分布具体表示为:
其中Xi表示第i个用户感兴趣的视频。
3.根据权利要求1所述的基于强化学习的个性化短视频推荐方法,其特征在于,所述专家轨迹具体表示为:
其中的si表示推荐引擎推荐的第i个视频, 表示用户对si所做出的动作,包括直接切换下一个视频、点赞和退出软件。
4.根据权利要求1所述的基于强化学习的个性化短视频推荐方法,其特征在于,所述步骤S2具体包括:
S21、将判别模型D和生成模型G分别用参数θD,θG表示,使用随机初始化;
S22、从正态分布中生成一个批次的噪声z,从真实数据分布中取出一个批次的样本数据x,通过梯度下降更新参数θG;
S23、重复步骤S22多次;
S24、从正态分布中生成一个批次的噪声z,从真实数据分布中取出一个批次的样本数据x,通过梯度下降更新参数θD;
S25、重复步骤S22‑S24,直至判别模型D和生成模型G收敛;
S26、得到收敛的生成模型G,作为用户特征分布。
5.根据权利要求1所述的基于强化学习的个性化短视频推荐方法,其特征在于,所述步骤S3中MAIL算法将推荐引擎的策略函数πσ与用户的策略函数 联合为
6.根据权利要求5所述的基于强化学习的个性化短视频推荐方法,其特征在于,所述步骤S3中,根据用户特征分布,推荐引擎与用户进行互动,生成一系列轨迹,从生成的轨迹中采样一条轨迹,通过最小化表达式,更新用户的奖励函数,在用户的马尔科夫决策过程中使用RL优化 重复多次得到训练完成的用户策略函数。
7.根据权利要求1所述的基于强化学习的个性化短视频推荐方法,其特征在于,在所述步骤S4中,推荐引擎的马尔科夫决策过程表示为 其中状态 为推荐引擎根据用户喜好进行推荐的视频,动作 为对小视频进行排序,依据为用户感兴趣程度的降序,转移函数 为在状态s下给定动作a,映射到下一个状态,具体定义为:c
其中a 为用户采取的动作, 为用户特征分布, 为奖励函数,当用户进行了点赞,奖励为1,否则为0,π为策略函数,表示在状态s下,执行动作a的概率。
8.根据权利要求1所述的基于强化学习的个性化短视频推荐方法,其特征在于,在所述步骤S4中,用户的马尔科夫决策过程表示为 其中状态 定义为
s,a>,动作 为用户的动作,转移函数 为在状态s下给定动作a ,映射到下一个状态,具体定义为:
c c
其中a 为用户采取的动作, 为用户特征分布, 为奖励函数,π为策略函数,表示在c c
状态s下,执行动作a的概率。
9.一种基于强化学习的个性化短视频推荐系统,其特征在于,包括中央处理器和存储器,所述存储器中存储有可以被所述中央处理器运行的程序,所述中央处理器通过运行所述程序可以实现如权利要求1‑8中任一项所述的基于强化学习的个性化短视频推荐方法。
10.一种计算机存储介质,其特征在于,存储有可以被中央处理器运行的程序,所述程序在被所述中央处理器运行的过程中可以实现如权利要求1‑8中任一项所述的基于强化学习的个性化短视频推荐方法。