1.一种基于TAN树形朴素贝叶斯算法网页可点击识别方法,其特征在于,包括:步骤S10,操控浏览器获取目标源网页,爬取该网页的数据,并根据获取到的数据构造出标签节点树;
步骤S20,根据朴素贝叶斯方法,计算出该标签节点树每一个节点特征在可点击与不可点击类别下的条件概率;
步骤S30,根据每个节点可点击的条件概率,计算出每一个对父子节点在可点击与不可点击类别下的条件互信息值,并作为边的权重;
步骤S40,根据权重,判断出拥有较高可点击概率的节点,并点击该节点。
2.如权利要求1所述的基于TAN树形朴素贝叶斯算法网页可点击识别方法,其特征在于,所述步骤S20具体包括:将爬取到的数据划分为可点击与不可点击两类,集合C={y1,y2},其中,y1为可点击,y2为不可点击;
列举可点击类别常见的特征属性,并将属于同类别的特征属性归结为集合xi,其中,将常见标签归结为集合x1,将常见属性归结为x2;
根据训练数据,计算在可点击分类与不可点击分类下,各个xi集合下各个特征属性的条件概率估计,记为P(xi|yj);
根据贝叶斯公式: 可以计算得到各个xi的可点击和不可点击的后验概率;
将计算得到各个xi的可点击的后验概率与预设阈值进行比较,若可点击的后验概率大于预设阀值,则表明该节点可以点击。
3.如权利要求1所述的基于TAN树形朴素贝叶斯算法网页可点击识别方法,其特征在于,步骤S30具体包括:假设zi、zj为标签节点树上相邻的节点,且zi、zj里面的元素由属性集合x1、x2中的元素组成,依据条件互信息值的计算公式,可得到:其中:
根据其极大似然估计,由频率近似概率可知:
4.如权利要求1~3任一项所述的基于TAN树形朴素贝叶斯算法网页可点击识别方法,其特征在于,步骤S40具体包括:根据权重,判断出拥有较高可点击概率的节点,并得到节点的CSS SELECTOR并操作webdiver点击该元素。
5.一种基于TAN树形朴素贝叶斯算法网页可点击识别系统,其特征在于,包括:数据爬取模块,用于操控浏览器获取目标源网页,爬取该网页的数据,并根据获取到的数据构造出标签节点树;
节点概率计算模块;用于根据朴素贝叶斯方法,计算出该标签节点树每一个节点特征在可点击与不可点击类别下的条件下的概率;
父子节点互信息值计算模块,用于根据每个节点可点击的条件概率,计算出每一个对父子节点在可点击与不可点击类别下的条件互信息值,并作为边的权重;
判断及点击操作模块,用于根据权重,判断出拥有较高可点击概率的节点,并点击该节点。
6.如权利要求5所述的基于TAN树形朴素贝叶斯算法网页可点击识别系统,其特征在于,节点概率计算模块具体包括:数据处理单元,用于将爬取到的数据划分为可点击与不可点击两类,集合C={y1,y2},其中,y1为可点击,y2为不可点击;并用于列举可点击类别常见的特征属性,并将属于同类别的特征属性归结为集合xi,其中,将常见标签归结为集合x1,将常见属性归结为xx;
节点概率计算单元,用于根据训练数据,计算处在可点击分类与不可点击分类下,各个xi集合下各个特征属性的条件概率估计,记为P(xi|yj);并用于根据贝叶斯公式:可以计算得到各个xi的可点击和不可点击的后验概率;
可点击判断单元,用于将计算得到各个xi的可点击的后验概率与预设阈值进行比较,若可点击的后验概率大于预设阀值,则表明该节点可以点击。
7.如权利要求5所述的基于TAN树形朴素贝叶斯算法网页可点击识别系统,其特征在于,父子节点互信息值计算模块具体用于以下操作:假设zi、zj为标签节点树上相邻的节点,且zi、zj里面的元素由属性集合x1、x2中的元素组成,依据条件互信息值的计算公式,可得到:其中:
根据其极大似然估计,由频率近似概率可知:
8.如权利要求5~7任一项所述的基于TAN树形朴素贝叶斯算法网页可点击识别系统,其特征在于,判断及点击操作模块具体用于根据权重,判断出拥有较高可点击概率的节点,并得到节点的CSS SELECTOR并操作webdiver点击该元素。