欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2020113863368
申请人: 重庆邮电大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2024-02-26
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于文本点击率的搜索结果推荐方法,其特征在于,包括以下步骤:

步骤110,对搜索内容query和搜索结果title进行预处理操作;

步骤120,对query和title构建特征工程;所述特征工程包括:词粒度的统计特征,文本语义特征,相似度特征,历史信息特征;

步骤130,利用改进的深度紧密递归交互注意力机制的网络DRCN构建基于残差递归自注意力和交互注意力机制的网络RRSCN的深度匹配模型,来进行特征提取;

步骤140,根据步骤130得到的RRSCN深度匹配模型,通过流式读取方法训练全量数据加上微调迁移学习的方式获取RRSCN的预训练模型;

步骤150,根据特征工程和RRSCN深度匹配模型构建三输入的全连接层网络;

步骤160,利用构建的全连接层网络预测文本预估点击率和相关性,给用户推荐最有可能点击的搜索结果;

其中,所述步骤120具体包括:

步骤121,计算词粒度的统计特征,用于描述搜索问题query和搜索标题title之间基于词的匹配信息,包含特征有:query或title长度、query长度‑title长度、query是否完全包含title、query和title的公共词个数、query和title的公共词个数与query和title长度的占比、title出现的频次、query和title的最长连续公共子序列长度;

步骤122,计算文本语义特征,用于描述query和title之间语义上的联系,包含特征有:N‑gram特征,query中第一、第二和第三个词语中的任两个是否相同,query中第一、第二和第三个词语在title中出现的位置,query首词或末词在title中的顺序以及出现位置;

获取query和title的共现语句s,计算与query和title语句的占比,得共现率特征:其中len表示获取语句的长度;

步骤123,计算相似度特征,用于衡量query和title相似程度,包括:步骤123a,通过词向量word2vec和快速文本分类器fasttext将文本进行词向量编码,通过以下公式给每个词赋予一个权重评价w:其中m为文档总数,wi,j为词语i在第j篇文档中出现的次数,aj为第j篇文档词语的个数,itf表示为加强过后的tf,iidf表示加强过后的idf,itf和iidf为TFC算法,α为根据正负类别频率的平衡系数,ni为包含词语i的所有文档数,p(i1)为单词i在正例类别中的频率,p(i0)为单词i在反例类别中的频率;

步骤123b,利用权重值对query和title中的每个词进行加权求和得到query和title的句向量表示:其中m是文中词语个数,vi为第i个词的词向量,sentence vec为计算得到的句向量;

步骤123c,对得到query和title的句向量进行余弦相似度、莱文斯坦levenshtein相似度、曼哈顿距离计算,把计算结果作为相似度特征;

步骤124,计算历史信息特征,用于根据历史数据去刻画title信息,包括:步骤124a,根据步骤110得到的query和title的关键词提取query历史点击率、title历史点击率作为特征;

对于冷启动文本,即测试集中未在训练集中出现的样本,统计训练集title出现的次数count和点击次数click,click为0的填充为1,测试集中未出现的title的点击率设置为

0.2;

步骤124b,计算title质量分数特征,一个query中用户点击的title和另一个query中用户点击的title,这两个title对于query的重要程度根据以下公式:其中qt表示包含title的query,labelq表示该query的标签值,1为对当前query下的该title有点击,0为未点击,ctrq为该query的一个整体点击率,Scoretitle为一个title的最终得分,即是包含该title的所有query下该title的得分总和;

根据公式得到title对于不同query下的一个得分,然后title的最终得分是包含该title的所有query下该title得分的总和。

2.根据权利要求1所述的方法,其特征在于,步骤110具体包括:

利用词语逆频率TF‑IWF算法,对query提取2个关键词,对title提取3个关键词,并且根据TF‑IWF权重值将query和title转化为稀疏向量,利用词向量word2vec将query和title转化为稠密向量。

3.根据权利要求1所述的方法,其特征在于,步骤130具体包括:

步骤131,设置query和title通过编码后的形式为:input1={x1,x2,...,xm},input2={x1,x2,...,xn};利用残差思路堆叠注意力机制来提取query和title的特征,先利用自注意力机制分别得到query和title与自身关联的表征,query中的xi与每个词x的匹配关系qi={w1,w2,...,wm},通过加权求和得到自注意力机制编码后的词语表征为句子编码input11={x′1,x′2,...,x′m},同理得到title的句子编码input22;

步骤132,然利用交互注意力机制得到query和title之间的相互关联的表征,query中的xi与title中每个词x的匹配关系q′i={w1,w2,...,wm},通过加权求和得到自注意力机制编码后的词语表征为 句子编码input12={x″1,x″2,....,x″m},同理得到title的句子编码input21;

步骤133,分别结合query和title的输入和attention输出作为注意力机制块的输出:a_query=input1+input11+input12,a_title=input1+input11+input12,堆叠6层。

4.根据权利要求1所述的方法,其特征在于:步骤140具体包括:

通过文件流处理数据和分批次训练,读取10%数据进行训练,保存当前批次的训练权重参数,再读取下10%部分数据进行训练,下一部分的参数在上次训练保存的权重参数基础上进行增量训练,直至所有数据都训练完成,保存最终的权重参数。

5.根据权利要求1所述的方法,其特征在于:步骤150具体包括:

首先根据步骤120得到模型特征,然后加载根据步骤140得到的预训练模型,从中获取倒数第二层的特征图feature map用于作为query和title利用深度匹配模型RRSCN提取到的特征,将query特征、title特征和通过步骤120得到的统计特征进行拼接,最后送入全连接层,用一部分数据微调整个网络。

6.一种基于文本点击率的搜索结果推荐系统,包括用于存储海量可搜索标题title的文本服务器,以及用于用户输入搜索问题query和显示最优搜索结果的用户搜索界面,其特征在于,包括以下模块:文本预处理模块S110,用于分别从用户搜索界面和文本服务器获取搜索问题query和搜索标题title,对搜索问题query和搜索标题title进行预处理操作;

特征工程构建模块S120,用于对query和title构建特征工程;所述特征工程包括:词粒度的统计特征,文本语义特征,相似度特征,历史信息特征;

特征提取模块S130,利用改进的深度紧密递归交互注意力机制的网络DRCN构建基于残差递归自注意力和交互注意力机制的网络RRSCN的深度匹配模型,来进行特征提取;

预训练模型构建模块S140,用于根据特征提取模块S130得到的RRSCN深度匹配模型,通过流式读取方法训练全量数据加上微调迁移学习的方式获取RRSCN的预训练模型;

全连接层网络模块S150,用于根据特征工程和RRSCN深度匹配模型构建三输入的全连接层网络;

搜索结果输出模块S160,利用构建的全连接层网络预测文本预估点击率和相关性,将向用户推荐最有可能点击的搜索结果输出到用户搜索界面;

其中,所述特征工程构建模块S120,具体包括:

词粒度的统计特征模块S121,用于计算描述搜索问题query和搜索标题title之间基于词的匹配信息,包含特征有:query或title长度、query长度‑title长度、query是否完全包含title、query和title的公共词个数、query和title的公共词个数与query和title长度的占比、title出现的频次、query和title的最长连续公共子序列长度;

文本语义特征模块S122,用于计算描述query和title之间语义上的联系,包含特征有:N‑gram特征,query中第一、第二和第三个词语中的任两个是否相同,query中第一、第二和第三个词语在title中出现的位置,query首词或末词在title中的顺序以及出现位置;

获取query和title的共现语句s,计算与query和title语句的占比,得共现率特征:其中len表示获取语句的长度;

相似度特征模块S123,用于计算衡量query和title的相似程度,具体用于:步骤S123a,通过词向量word2vec和快速文本分类器fasttext将文本进行词向量编码,通过以下公式给每个词赋予一个权重评价w:其中m为文档总数,wi,j为词语i在第j篇文档中出现的次数,aj为第j篇文档词语的个数,itf表示为加强过后的tf,iidf表示加强过后的idf,itf和iidf为TFC算法,α为根据正负类别频率的平衡系数,ni为包含词语i的所有文档数,p(i1)为单词i在正例类别中的频率,p(i0)为单词i在反例类别中的频率;

步骤S123b,利用权重值对query和title中的每个词进行加权求和得到query和title的句向量表示:m是文中词语个数,vi为第i个词的词向量,sentence vec为计算得到的句向量;

步骤S123c,对得到query和title的句向量进行余弦相似度、莱文斯坦levenshtein相似度、曼哈顿距离计算,把计算结果作为相似度特征;

历史信息特征模块S124,用于根据历史数据去刻画title信息,具体用于:步骤S124a,根据步骤110得到的query和title的关键词提取query历史点击率、title历史点击率作为特征;

对于冷启动文本,即测试集中未在训练集中出现的样本,统计训练集title出现的次数count和点击次数click,click为0的填充为1,测试集中未出现的title的点击率设置为

0.2;

步骤S124b,计算title质量分数特征,一个query中用户点击的title和另一个query中用户点击的title,这两个title对于query的重要程度根据以下公式:其中qt表示包含title的query,labelq表示该query的标签值,1为对当前query下的该title有点击,0为未点击,ctrq为该query的一个整体点击率,Scoretitle为一个title的最终得分,即是包含该title的所有query下该title的得分总和;

根据公式得到title对于不同query下的一个得分,然后title的最终得分是包含该title的所有query下该title得分的总和。

7.根据权利要求6所述的系统,其特征在于,特征提取模块S130具体用于:步骤S131,query和title通过编码后的形式为:input1={x1,x2,...,xm},input2={x1,x2,...,xn};利用残差思路堆叠注意力机制来提取query和title的特征,先利用自注意力机制分别得到query和title与自身关联的表征,query中的xi与每个词x的匹配关系qi={w1,w2,...,wm} ,通过加权求和得到自注意力机制编码后的词语表征为句子编码input11={x′1,x′2,....,x′m},同理得到title的句子编码input22,

步骤S132,然利用交互注意力机制得到query和title之间的相互关联的表征,query中的xi与title中每个词x的匹配关系q′i={w1,w2,...,wm},通过加权求和得到自注意力机制编码后的词语表征为 句子编码input12={x″1,x″2,....,x″m},同理得到title的句子编码input21;

步骤S133,分别结合query和title的输入和attention输出作为注意力机制块的输出:a_query=input1+input11+input12,a_title=input1+input11+input12,堆叠6层。

8.根据权利要求6所述的系统,其特征在于:全连接层网络模块S150具体用于:首先根据特征工程构建模块S120得到模型特征,然后加载根据预训练模型构建模块S140得到的预训练模型,从中获取倒数第二层的特征图feature map用于作为query和title利用深度匹配模型RRSCN提取到的特征,将query特征、title特征和通过特征工程构建模块S120得到的统计特征进行拼接,最后送入全连接层,用一部分数据微调整个网络。