欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2021115038340
申请人: 广东工业大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2025-05-20
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种半监督学习的小样本文本分类方法,其特征在于,包括以下步骤:S1、获取待分类文本;

S2、将待分类文本输入预先训练完成的查找表,通过查找表将待分类文本映射为文本表征;

所述查找表为完成训练的查找表,通过对初始的查找表训练得到,获取完成训练的查找表的方法为:构建初始的查找表,通过变分自编码器对初始的查找表进行训练,保存完成训练的查找表;

所述变分自编码器包括:编码器、批归一化层、标量层、解码器;

编码器、批归一化层、标量层、解码器依次连接;所述编码器和解码器均采用门控卷积神经网络;

训练查找表包括步骤:

S21、构建初始的查找表,将文本数据集输入到初始的查找表,通过初始的查找表将文本映射为矩阵,所述矩阵为初始的文本表征;

S22、将初始的文本表征输入到变分自编码器的编码器中进行学习,输出编码器学习到的平均数和标准差;

S23、将平均数和标准差分别输入批归一化层,对其进行归一化,然后输入到标量层;

S24、使用经过批归一化层和标量层处理的平均数和标准差,按照以下公式计算隐码;

其中,xi是变分自编码器的输入,fμ'和fσ'是分别计算并进行归一化和缩放平均数和标(s) (s)准差的函数,ε ~N(0,1),即ε 参数是按照独立高斯分布进行采样得到,s为隐码zi的维度;

S25、隐码输入到变分自编码器的解码器中,输出重构文本;

S26、使用损失函数计算步骤S25的重构文本和步骤S21输入查找表的文本数据之间的重构损失,利用目标函数判断是否达到训练目标,目标函数公式为:其中,xi是变分自编码器的输入,zi是隐码,q(z)是变分自编码器的先验分布,p(zi|xi)是变分自编码器的后验分布,B是变分自编码器的下限, 是重构损失,表明生成的单词和输入文本的相似度;KL[p(zi|xi)||q(z)]是测量两个概率分布差异的指标;

S27、若达到训练目标,查找表训练完成,保存完成训练的查找表;若未达到训练目标,则重复执行训练过程,并利用反向传播算法根据目标函数调整查找表和变分编码器的参数,直到达到训练目标;

S3、将文本表征输入多层感知器得到文本标签,将文本标签作为文本分类结果,完成对小样本文本的分类;

多层感知器利用文本表征得到文本标签过程包括:

S31、将文本表征输入多层感知器的第一全连接层提取特征,得到第一全连接层的输出数据;

S32、将第一全连接层的输出数据输入第一激活函数进行处理,得到第一激活函数的输出数据;

所述第一激活函数为relu激活函数,处理公式为 其中,x是输入函数的数据;

S33、将第一激活函数的输出数据输入多层感知器的第二全连接层提取特征,得到第二全连接层的输出数据;

S34、将第二全连接层的输出数据输入第二激活函数进行处理,得到文本标签作为文本分类结果;

所述第二激活函数为sigmoid激活函数,处理公式为 其中,x是输入函数的数据。

2.一种半监督学习的小样本文本分类系统,其特征在于,包括:分类文本获取模块、查找表执行模块、多层感知器执行模块;

分类文本获取模块获取待分类文本,并将待分类文本输入预先训练完成的查找表执行模块;查找表执行模块利用查找表将待分类文本映射为文本表征,并将文本表征输入多层感知器执行模块,多层感知器执行模块利用多层感知器通过文本表征得到文本标签,将文本标签作为文本分类结果,完成对小样本文本的分类;

还包括查找表生成模块,所述查找表生成模块构建初始的查找表,通过变分自编码器对初始的查找表进行训练,保存训练完成的查找表到查找表执行模块;

所述变分自编码器包括:编码器、批归一化层、标量层、解码器;

编码器、批归一化层、标量层、解码器依次连接;所述编码器和解码器均采用门控卷积神经网络;

训练查找表包括步骤:

构建初始的查找表,将文本数据集输入到初始的查找表,通过初始的查找表将文本映射为矩阵,所述矩阵为初始的文本表征;

将初始的文本表征输入到变分自编码器的编码器中进行学习,输出编码器学习到的平均数和标准差;

将平均数和标准差分别输入批归一化层,对其进行归一化,然后输入到标量层;

使用经过批归一化层和标量层处理的平均数和标准差,按照以下公式计算隐码;

其中,xi是变分自编码器的输入,fμ'和fσ'是分别计算并进行归一化和缩放平均数和标(s) (s)准差的函数,ε ~N(0,1),即ε 参数是按照独立高斯分布进行采样得到,s为隐码zi的维度;

隐码输入到变分自编码器的解码器中,输出重构文本;

使用损失函数计算的重构文本和输入查找表的文本数据之间的重构损失,利用目标函数判断是否达到训练目标,目标函数公式为:其中,xi是变分自编码器的输入,zi是隐码,q(z)是变分自编码器的先验分布,p(zi|xi)是变分自编码器的后验分布,B是变分自编码器的下限, 是重构损失,表明生成的单词和输入文本的相似度;KL[p(zi|xi)||q(z)]是测量两个概率分布差异的指标;

若达到训练目标,查找表训练完成,保存完成训练的查找表;若未达到训练目标,则重复执行训练过程,并利用反向传播算法根据目标函数调整查找表和变分编码器的参数,直到达到训练目标;

多层感知器利用文本表征得到文本标签过程包括:

将文本表征输入多层感知器的第一全连接层提取特征,得到第一全连接层的输出数据;

将第一全连接层的输出数据输入第一激活函数进行处理,得到第一激活函数的输出数据;

所述第一激活函数为relu激活函数,处理公式为 其中,x是输入函数的数据;

将第一激活函数的输出数据输入多层感知器的第二全连接层提取特征,得到第二全连接层的输出数据;

将第二全连接层的输出数据输入第二激活函数进行处理,得到文本标签作为文本分类结果;

所述第二激活函数为sigmoid激活函数,处理公式为 其中,x是输入函数的数据。