1.一种PowerPoint演示文稿向Word文档转换的方法,其特征在于,包括以下步骤S1、引入Apache POI实现Microsoft Office PowerPoint源文件的数据提取:对源文件进行预处理,获取源文件段落信息,接着进行包含文本、图片、表格、公式的数据提取并保存;
S2、进行源文件数据分析:根据对Microsoft Office PowerPoint源文件提取的内容,将每个段落的文本对应的字号、行数、水平布局位置汇总作为源数据集Ta,预设的Microsoft Office PowerPoint转换Microsoft Office Word文档历史信息作为迁移数据集Tb,将二者合并为训练数据集T;定义用于K-means聚类算法的欧氏距离函数disted和最小化平方误差函数E;执行迁移学习算法,初始化段落的权重向量w,并计算用于数据集T上的权重分布pt;执行聚类算法对数据集T进行聚类,通过调用欧氏距离函数disted和最小化平方误差函数E,将不同的段落划归到k类,再计算迁移错误率∈t更新权值向量 迭代运行设定多次以获得最终分类器ht,并将文本、图片、表格、公式的分类结果保存;对公式做放缩、去噪、二值化处理,再通过OCR和语义转换技术转化目标公式,生成格式化的Microsoft Office Word文档公式;
S3、引入JACOB实现Microsoft Office Word文档目标文件生成:对保存的文本、图片、表格、公式,将其依次写入目标的Microsoft Office Word文档文件中,完成文档的转换。
2.根据权利要求1所述的一种PowerPoint演示文稿向Word文档转换的方法,其特征在于,步骤S1的引入Apache POI实现源文件数据提取的具体方法包括:S11、调用系统文件中的选择对话框FileDialog,供用户上传待转换的Microsoft Office PowerPoint演示文稿;
S12、上传完成后,通过POI中HSLFSlideShow对象提供的getSlides方法,得到该Microsoft Office PowerPoint演示文稿中所有的幻灯片数据信息;
S13、文本数据的提取,通过JACOB组件中提供的“Item”、“Range”、“Text”、“Font”、“Size”参数读取文件中的文本内容、文本字体大小、段落格式、段落索引号信息;
S14、其余格式的数据提取,通过POI的GETALLPictures方法获取演示文稿中的图片,通过GETTables方法获取表格、提取FileOutputStream的图片、提取Clipboard的公式,并将提取的数据保存。
3.根据权利要求1所述的一种PowerPoint演示文稿向Word文档转换的方法,其特征在于,步骤S2的源文件数据分析的具体方法包括:S21、统计文本数据在PowerPoint存储的方式,将每个段落文本对应的字号、行数、水平布局位置汇总作为源数据集Ta,其长度为m,按照相同格式加载预设的PowerPoint转换Word历史信息作为迁移数据集Tb,其长度为n;将二者合并为训练数据集T,其长度为m+n;
S22、定义数据集文本数据段落样本表示为 质心表示为
其中i=1,2,…,s表示段落索引号,j=1,2,…,t表示特征数,
再根据上述符号定义用于K-means算法计算每簇质心和该段落距离的欧氏距离函数:
定义K-means算法拟合簇质心的最小化平方误差函数:
其中 是簇Ci的均值向量;
S23、执行迁移算法,初始化段落的权重向量,w表示每个段落文本的初始权重,该权重用于调整迁移数据对源数据的影响作用:t
S24、计算用于数据集T上的权重分布p,用于K-means算法训练数据的权值项,其权重分布pt根据权重向量wt计算得到:S25、执行聚类算法对数据集T进行聚类,通过调用欧氏距离函数disted和最小化平方误差函数E,将不同的段落划归到k类;
S26、根据K-means算法的聚类结果,计算迁移错误率∈t:
ht表示分类器在Ta上分类结果,c表示聚类算法分类在Ta上分类结果,设置和βt=∈t/(1-∈t)并根据该错误率计算并更新权值向量:S27、返回步骤S24进行迭代,直到达到设置的迭代次数N为止,以获得最终分类器ht,并将分类结果保存;
S28、对于不同的公式类型,当公式为图片格式时,对PowerPoint演示文稿的公式图片做放缩、去噪、二值化处理,再通过OCR和语义转换技术转化目标公式,生成格式化的Word文档公式。
4.根据权利要求1所述的一种PowerPoint演示文稿向Word文档转换的方法,其特征在于,步骤S3的引入JACOB实现目标文件生成的方法包括:S31、读取分类结果,将存储的标题、文本内容、表格、图片以及公式与源文件对应数据建立映射关系并确定生成文件中的目标元素的位置;
S32、通过目标元素生成目标文件的数据流,将目标文件数据流依次写入到目标Word文件中,生成最终的Word文档。
5.一种PowerPoint演示文稿向Word文档转换的系统,其特征在于,包括:
源文件数据提取模块:用于引入Apache POI实现PowerPoint源文件的数据提取:首先对源文件进行预处理,获取源文件段落信息,接着进行包含文本、图片、表格、公式的数据提取并保存;
源文件数据分析模块:用于根据对PowerPoint源文件提取的内容,将每个段落的文本对应的字号、行数、水平布局位置汇总作为源数据集Ta,预设的PowerPoint转换Word历史信息作为迁移数据集Tb,将二者合并为训练数据集T;定义用于K-means聚类算法的欧氏距离函数disted和最小化平方误差函数E;执行迁移学习算法,初始化段落的权重向量w,并计算用于数据集T上的权重分布pt;执行聚类算法对数据集T进行聚类,通过调用欧氏距离函数disted和最小化平方误差函数E,将不同的段落划归到k类,再计算迁移错误率∈t更新权值向量 迭代运行设定多次以获得最终分类器ht,并将文本、图片、表格、公式的分类结果保存;对公式做放缩、去噪、二值化处理,再通过OCR和语义转换技术转化目标公式,生成格式化的Word文档公式;
目标文件生成模块:引入JACOB实现Word目标文件生成:对保存的文本、图片、表格、公式依次写入目标的Word文件中,完成文档的转换。