1.一种文本信息纠错方法,所述方法包括:
获取音频信息对应的文本信息,将所述文本信息转化为第一拼音列表;
根据所述第一拼音列表中的多个拼音首字母在字典树中查找是否存在所述多个拼音首字母对应的第二词语列表;所述字典树的每个节点存储有一个文字的拼音首字母,以及每个所述节点的词语列表;
当存在所述多个拼音首字母对应的第二词语列表时,在所述文本信息中查找所述多个拼音首字母对应的字符串;
在所述第二词语列表中选择所述字符串对应的词语,将所述词语对相应的字符串进行纠错,得到纠错后的文本信息。
2.根据权利要求1所述的方法,其特征在于,所述根据所述第一拼音列表中的多个拼音首字母在字典树中查找是否存在所述多个拼音首字母对应的第二词语列表,包括:根据所述第一拼音列表中的多个拼音首字母在字典树中查找是否存在所述多个拼音首字母对应的第二拼音列表;
当存在所述多个拼音首字母对应的第二拼音列表时,获取所述第二拼音列表对应的第二词语列表。
3.根据权利要求2所述的方法,其特征在于,所述在所述第二词语列表中选择所述字符串对应的词语,将所述词语对相应的字符串进行纠错,包括:当所述第二词语列表的长度大于预设值时,将所述第二词语列表中的词语与所述字符串进行比对,得到比对结果;
当所述比对结果中存在比对成功的词语时,将所述词语对相应的字符串进行纠错。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:当所述比对结果中未得到比对成功的词语时,将所述第二词语列表中的词语在所述第二拼音列表中的拼音与所述字符串在所述第一拼音列表中的拼音进行比对,得到拼音比对结果;
选取所述拼音比对结果中匹配度最高的词语,将所述匹配度最高的词语对相应的字符串进行纠错。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:对所述字典树中每个节点存储的拼音列表中发音近似的音节进行字母过滤处理;
在过滤处理后的字典树中查找所述第一拼音列表中的多个拼音首字母对应的第二词语列表。
6.一种文本信息纠错装置,其特征在于,所述装置包括:
信息转化模块,用于获取音频信息对应的文本信息,将所述文本信息转化为第一拼音列表;
列表查找模块,用于根据所述第一拼音列表中的多个拼音首字母在字典树中查找是否存在所述多个拼音首字母对应的第二词语列表;所述字典树的每个节点存储有一个文字的拼音首字母,以及每个所述节点的词语列表;
字符串查找模块,用于当存在所述多个拼音首字母对应的第二词语列表时,在所述文本信息中查找所述多个拼音首字母对应的字符串;
字符串纠错模块,用于在所述第二词语列表中选择所述字符串对应的词语,将所述词语对相应的字符串进行纠错,得到纠错后的文本信息。
7.根据权利要求6所述的装置,其特征在于,所述列表查找模块还用于根据所述第一拼音列表中的多个拼音首字母在字典树中查找是否存在所述多个拼音首字母对应的第二拼音列表;当存在所述多个拼音首字母对应的第二拼音列表时,获取所述第二拼音列表对应的第二词语列表。
8.根据权利要求7所述的装置,其特征在于,所述字符串纠错模块还用于当所述第二词语列表的长度大于预设值时,将所述第二词语列表中的词语与所述字符串进行比对,得到比对结果;当所述比对结果中存在比对成功的词语时,将所述词语对相应的字符串进行纠错。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至5中任一项所述方法的步骤。