1.一种Word文档向PowerPoint文档转换的方法,其特征在于,包括:S1、提交Microsoft Office Word文档文件,对文件中文本、图片、表格和公式数据进行初始分析;
S2、结合Dispatch分析参数提取Microsoft Office Word文档文件中的数据的内容、类型及格式信息,类型包括文本、图片、表格和公式;
S3、利用Apriori算法,根据文档属性值的区别,分别选取最为近似或者匹配度最高的元素转换策略,形成最佳的图片、公式、表格及文本段落目标元素信息流;
S4、利用各目标元素信息流,结合源Word文件中图片、表格、段落和公式目标元素的相对位置信息,生成最终的目标文档信息流;
S5、根据用户需求,在母版类中选择合适的母版;
S6、将形成的目标文档信息流写入到Microsoft Office PowerPoint母版中;
S7、判断是否需要继续新建一张幻灯片;若是,则进行步骤S8;否则,进行步骤S9;
S8、根据用户选择的母版新建一张幻灯片;
S9、结束Word文档向PowerPoint文档的转换。
2.根据权利要求1所述的一种Word文档向PowerPoint文档转换的方法,其特征在于,所述步骤S1中,Microsoft Office Word文档中不同的元素所存储的形式存在明显差异,图片、公式、文本、表格不同文档元素提取到的数据格式、存储方式均不同。
3.根据权利要求1所述的一种Word文档向PowerPoint文档转换的方法,其特征在于,所述步骤S2包括:S21、通过Apache JACOB中所提供的方法索引并读取文档中段落内容、格式、相对位置信息;
S22、通过Apache POI中提供的方法索引并提取该Word文档的所有图片及表格数据;
S23、结合FileOutputStream将所有图片保存为本地文件。
4.根据权利要求1所述的一种Word文档向PowerPoint文档转换的方法,其特征在于,所述步骤S3包括:S31、利用堆叠式降噪自动编码器、结构扩展的贝叶斯定理和Apriori算法,对Word文档的文本、标题内容进行智能识别与分析,区分源文档中标题、正文文本、图片说明和表格说明信息;
S32、结合上述分析结果,用户可选择生成包含目录、作者基本情况相关信息;
S33、结合多种深度学习方法,识别并获得源文档中公式表达的含义,并输入到系统公式转换函数模块WordMathToPowerPoint,转换为PowerPoint文档识别的编码方式。
5.根据权利要求1所述的一种Word文档向PowerPoint文档转换的方法,其特征在于,所述步骤S4中,根据转换系统中参数存储的源Word文档中各元素的相对位置信息,在保证源文档中各元素位置不变的情况下,生成目标文档信息流。
6.根据权利要求1所述的一种Word文档向PowerPoint文档转换的方法,其特征在于,所述步骤S5中,根据用户需求,利用SlideMaster函数选择需要的幻灯片母版。
7.根据权利要求1所述的一种Word文档向PowerPoint文档转换的方法,其特征在于,所述步骤S6中,将目标文件数据流和源文件相对位置记录信息通过调用BufferedWriter函数写入到目标Microsoft Office PowerPoint文件中。
8.根据权利要求1所述的一种Word文档向PowerPoint文档转换的方法,其特征在于,所述步骤S6中,根据段落的长度不同设置字体大小,根据源文件元素相对位置信息设置标题字体大小、格式位置。
9.根据权利要求1所述的一种Word文档向PowerPoint文档转换的方法,其特征在于,所述步骤S7中,根据用户选择的幻灯片母版,利用AddNewSlide函数来判读是否需要添加一张新的幻灯片。
10.一种Word文档向PowerPoint文档转换的系统,其特征在于,包括:提交模块、用于提交Microsoft Office Word文档文件,对文件中文本、图片、表格和公式数据进行初始分析;
提取模块、用于结合Dispatch分析参数提取Microsoft Office Word文档文件中的数据内容、类型及格式信息;
选取模块、用于利用Apriori算法,根据文档属性值的区别,分别选取最为近似或者匹配度最高的元素转换策略,形成最佳的图片、公式、表格及文本段落目标元素信息流;
生成模块、用于利用各目标元素信息流,结合源Word文件中图片、表格、段落和公式目标元素的相对位置信息,生成最终的目标文档信息流;
母版模块、用于根据用户需求,在母版类中选择合适的母版;
写入模块、用于将形成的目标文档信息流写入到Microsoft Office PowerPoint母版中;
判断模块、用于判断是否需要继续新建一张幻灯片;若是,则跳转至新建模块;否则,跳转至终止模块;
新建模块、用于根据用户选择的母版新建一张幻灯片;
终止模块、用于结束Word文档向PowerPoint文档的转换。