欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2024114709981
申请人: 吴元峰
专利类型:发明专利
专利状态:授权未缴费
专利领域: 计算;推算;计数
更新日期:2025-07-03
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.社交网络大数据商业竞争空间计算选址方法,其特征在于,首先,基于Scrapy框架构建爬取微博数据的爬虫系统,对微博数据进行数据采集;然后,基于空间规则格网划分,按照不同的格网大小对区域进行划分,将获取的数据赋值给格网,并最终确认最佳的格网划分大小;最后,利用空间异质性模型对选址样本进行拟合,并与空间同质性模型进行比较,得到最佳的拟合模型,解析空间异质性对快销品销量的影响,基于分布竞选模型建立最佳快销品零售店开设位置;

1)基于爬虫的社交媒体大数据获取:采用Scrapy爬虫框架,建立一套爬取微博数据的工具来对微博数据进行数据采集,采用微博签到位置代替传统调查问卷的方法,通过数据采集爬虫并通过预处理,最终得到有效数据,其中包括用户ID、用户签到坐标、用户签到时间;

2)空间竞争选址计算格网划分和样本提取:利用空间格网划分的方法,采用ArcGIS按照不同的格网大小对区域进行划分,并将已获取得到的销售数据、微博签到数据、兴趣点数据赋值给每个格网,从而得到最终的竞争选址样本数据,并且基于空间分析可塑面积网格效应,将区域划分为不同大小的空间格网,挖掘样本空间效应对于竞争选址结果的影响,最终得到最优的空间格网划分方法,即采用500米*500米的空间格网划分方式拟合已有数据,拟合效果最好;

3)商业空间竞争异质性选址计算:采用空间相关性检验,销售情况与空间存在强相关性,即快销品的销售存在空间异质性,采用空间异质性模型—地权融合模型对已有数据进行拟合,找出影响最大的影响因子,快销品的销售存在强空间异质性,同时基于分布竞选模型建立空间可达性评价方法,并根据空间可达性和销售数据计算出每个格网的空间竞争吸引力,根据空间吸引力,为决策者提供一系列可增开零售店的候选位置,共决策者选择。

2.根据权利要求1所述社交网络大数据商业竞争空间计算选址方法,其特征在于,基于爬虫的社交媒体大数据获取:采用分布式爬虫框架,包括爬虫模块,中间件模块,数据存储三个大的模块,其中爬虫模块包括爬取策略设计、字段提取、增量爬取与去重,中间件模块包括对于反爬虫的处理,对于非200响应状态的处理,爬虫异常处理包括数据存储模块包括抓取字段设计、数据存储;

爬虫设计基于Scrapy框架设计开发,在系统中新的链接被分为两类:目录页链接、详细页链接,爬虫需从每一个目录页链接当中,提取到多个内容页链接,加入到待下载队列准备进一步爬取,此处为Master端的目标链接的爬取策略,采用分布式主从模式:Master端爬虫负责分析目录页中学习,得到下载到内容详情页链接,然后通过redis下发下载任务给其它slave端的爬虫,Slave端对详情页链接的进一步解析,并提取数据存储到MongoDB数据库中;

去重与增量爬取模块,减少服务器的压力同时保证数据的准确性,防止爬虫得到重复的链接,从而导致爬取大量的重复数据,降低爬虫的效率,在本申请开始处理机制为:将每次的请求存入到redis队列中,如果队列中引进存在,则不存入即可;

反爬虫模块设计,一是模拟浏览器的行为,添加浏览器参数;二是定时更换IP和网关;三是禁用cookie;四是限制IP并发次数;

采用爬虫爬取微博数据,获取用户的基本数据,用户的粉丝,粉丝和用户的帖子,包括定位,文本和其它数据,具体包括三个模块:规则预置模块、web爬取模块和后续数据处理模块;

规则预置模块获取数据的格式:定义数据存储格式,以便后续数据的存储,item.py文件中,根据要获取的数据定义数据类型,定义在传输的数据类型,包括个人数据类InformationItem、微博数据类TweetsItem、关注人数据类FollowsItem、粉丝类FansItem,在每个类中定义具体数据类型,在个人数据类中定义用户的ID、性别、所在地、微博数、粉丝数、关注数、首页链接数据,微博数据类中定义微博内容、定位坐标、发表时间数据;

网页数据抓取从初始的URL开始爬取数据,并对获取的数据进行预处理,并且根据不同的数据类型调用不同的回调函数。

3.根据权利要求1所述社交网络大数据商业竞争空间计算选址方法,其特征在于,空间竞争选址计算格网划分和样本提取:针对快销品商业选址的需求,根据已获取的微博数据、销量数据、兴趣点数据,采用空间网格划分的方法,对区域进行空间网格划分,得到最终空间竞争选址样本,同时解析不同格网大小对空间计算结果的影响大小,得到最优的格网划分方法;

获得的数据包括通过爬虫获取的微博数据,零售店位置数据、销售情况数据,兴趣点数据,道路数据以及其它数据;

(一)销售数据

记录销售的数量,销售种类,销售时间,销售店铺的名称、位置坐标数据,同时销售扫码数据精确到每一个品牌的销售情况,针对每一个品牌单独进行数据分析,售扫码数据不仅记录用户购买的时间、物品种类,而且记录用户购买物品的店铺,结合店铺的坐标,分析每个店铺的销售情况;将获取得到的扫码数据进行物品种类划分汇总,得到每个品牌在每个店铺销售情况。

(二)兴趣点信息

兴趣点数据涵盖学校、医院、政府机构、商店、银行、餐馆、酒店、车站、停车场,获取得到的兴趣点数据的名称Name、地址ADDRESS、兴趣点类别表TYPE、经度X、纬度Y数据;

(三)空间单元构建

基于获取的销售数据、微博数据、兴趣点数据,利用空间网格划分方法,提取空间竞争单元的样本,同时,不同的空间计算网格的大小对最终的计算结果产生影响,分析在不同的规则空间格网划分的情况下,确认最佳的空间格网划分大小;

采用划分空间格网单元的方式,将数据点划分到一个格网,使其作为一个格网,采用规则格网进行空间网格的构建,对于边缘区域,采用格网占区域的面积比例决定是否进行数据的保留,如果格网内的研究区域占格网面积比例超过50,则保留该格网,负责就舍弃该格网,格网构建采用ArcGIS中“ArcToolbox”中“数据管理工具”的“要素类”工具的“创建渔网”的工具;

其中“输出要素类”为最终数据输出的位置,最终数据输出格式为“shp”格式;“模板范围”为渔网生成的范围大小,选择模板范围后,上下左右四个位置,即最大最小纬度,最大最小精度就会自动生成,渔网原点坐标也会自动生成;采用以400米*400米的格网进行单元划分,去掉其中属性值为空的单元剩余单元,格网生成后,出现一个格网层,每个格网都有自己唯一的格网编号。

(四)格网内居民数量提取

提取每个格网内人口数量,在微博数据计算分析的基础上,采用微博签到数据的签到位置来代替用户的实际家庭住址;

采用ArcGIS中“连接数据”功能,向获取得到的格网划分数据中追加其它属性数据,将人口数据添加到现有的格网数据中,采用基于空间位置的属性数据的追加方式,将微博数据追加到已获得的格网数据中,同时将每个格网的数值型数据属性进行计算汇总,以及显示落入其中的点的数目的计数字段,汇总数据采用求取总和的方式,即计算落入到每个格网的微博签到数量的总和来代替每个格网中人的数量。

4.根据权利要求1所述社交网络大数据商业竞争空间计算选址方法,其特征在于,可塑面积网格效应模型:将空间区域划分为不同大小的空间单元,计算可塑面积网格对空间计算结果的影响大小,不同尺寸大小的空间划分单元所产生的竞争样本得到不同的计算结果,随空间单元大小变化,竞争选址结果的变化规律,同时找到最优的空间网格划分方式;

采用规则格网划分法对区域进行划分,采用均匀增加格网划分的高度和宽度,构建均匀的格网,得到空间竞争样本,随格网的高度和宽度的增加,得到的样本数量减少,然后利用空间数据连接方法将销量数据、微博数据、兴趣点数据赋值给格网,每一个格网作为一个对象,从而得到最终的样本;基于已获得各种格网大小的数据,利用地权融合模型对数据进行拟合,通过比较模型拟合度R2来判断模型拟合精度,最终选择模型拟合最好的格网大小最为最终格网划分依据;利用ArcGIS提供的格网构建工具构建规则格网,分别以100米为间隔,分别构建100米*100米,200米*200米,300米*300米直到800米*800米,共8组规则格网,然后利用地权融合模型进行拟合,找到最优的格网拟合大小。

5.根据权利要求1所述社交网络大数据商业竞争空间计算选址方法,其特征在于,商业空间竞争异质性选址计算:基于ArcGIS软件计算莫兰指数,通过计算属性值中元素的均值和方差,然后每个元素的属性值均减去均值,得到差值的均值,然后乘以相邻元素的差值,得到叉积,获取评价空间相关性指标;利用ArcGIS的空间自相关工具计算莫兰指数后,计算出预期值,并将期望值与所观察到的指标进行比较,当数据集合中的元素个数和数据值的所有方差都是一定的条件,计算两个数据:z得分和P值,这两个数据判断数据是否具有计算意义,即是否具有显著性,如果通过计算得到的p值在计算学上具有显著性,则拒绝零假设。

6.根据权利要求1所述社交网络大数据商业竞争空间计算选址方法,其特征在于,地权融合模型:引入回归点坐标,坐标变动的同时,不仅解释区的局部特征,也反映解释变量与因变量之间在空间上的变化程度和方向;

基于回归模型将空间对象的地理坐标引入到模型中,允许局部而不是全局参数估算,其公式如下:

yi=β0(ui+vi)+∑kβk(ui+vi)xik+εi    式1

(ui+vi)代表第i个样本点的地理空间坐标,而βk(ui+vi)代表第i个样本点中第k个影响因子自变量x,对被解释变量yi的参数;εi为随机误差,若变量在空间的表现为均值,不存在空间异质性,则βk(ui+vi)为固定值,此时的地权融合模型则退化为线性回归模型,地权融合模型模型的矩阵表示如下:其中β为回归系数矩阵,X为自变量矩阵,将其展开结构如下:

其中β的估算用矩阵形式表达为:

是元素的观测值,其中W(ui,vi)代表第i个样本点拟合模型时的权重矩阵,具体形式如下:

其中的的估算为加权的最小二乘法参数估算,地权融合模型重要参数为空间权重与带框,每个样本点对应一个位置,对应样本点的回归权重不同,加权函数描述不同影响因子对样本点大小影响,该函数的大小由观测点之间的距离和影响决策的因子之间的距离,距离越大,对应权重越大;

最终通过对比全局线性回归模型拟合度R2与地权融合模型模型R2,判断数据是否具有空间异质性特征,R2是拟合度的一种度量,其值在0.0到1.0范围内变化,且值越大表明模型拟合越好;

1)确定空间权重

空间关系利用加权函数来表示,某一区域的权重的规律为:随着距离的增大而减小,采用以下加权函数:

其中b是带宽,即窗口大小,代表权重与距离之间函数关系的非负衰减参数,dij代表第j个数据点与第i个样本点之间的距离,ωij代表第j个样本点对第i个样本点的回归权重值大小,加入距离阈值,在一定的距离范围内,每个数据点的权重由单调递减函数来计算,当超过阈值时,权重就记为零,有效处理长尾效应带来的计算成本增加问题;

2)确定带宽

在计算空间权重时,对于每个窗口中包含的数据点个数由b决定,继而影响权重的计算。模型拟合度验证方法如下:

将所有数据分成n组,采用其中一部分用来计算拟合模型,另外一部分数据用来拟合的而模型进行验证,之后用另一部分进行计算拟合模型,采用前一部分对拟合的模型进行验证,计算式如下:其中,y≠i(b)代表在进行回归参数估算的时候,不计算回归点本身,只利用回归点周边的数据进行求解回归参数,最后把不同的带宽和不同的CV绘制成趋势线,找到拟合最好的带宽大小。

7.根据权利要求1所述社交网络大数据商业竞争空间计算选址方法,其特征在于,空间异质性解析:首先对销售数据是否具有空间相关性进行检验,采用ArcGIS中“ArcToolbox”中“空间计算工具”下的“空间自相关Moran'sI”来检验销售数据是否具有空间相关性,即检验销售是在空间上具有相关性进行检验;

在工具参数设计中,“空间关系概念化”采用“INVERSE_DISTANCE”,判断销售量在空间上具有显著的空间聚类和空间相关性;

在证明销售数据具有空间相关性之后,进行销售数据的空间异质性检验,首先检验获取得到的数据是否存在多重共线性的问题,首先需要进行数据是否存在多重共线性进行检验;

利用全局线性回归模型OLS对数据进行拟合,采用ArcGIS中“ArcToolbos”下的“普通最小二乘法”工具对数据进行拟合,解释变量为人口数量Population、兴趣点数据Type01至Type16,通过确定方差展开因子VIF,检查模型变量是否存在多重共线问题,VIF值是容忍度的倒数,即是否保留该自变量,则该自变量不被保留,表明独立变量的模型由独立变量的其余部分预测,如果出现拟合模型的自变量存在共线性问题,则模型拟合效果差,去掉VIF大的自变量,采用地权融合模型对数据进行拟合,模型的拟合程度采用多重可决系数R2和校正可决系数的值进行评价,值的范围在0.0至1.0之间;

利用地理加权回归地权融合模型模型对数据进行拟合,采用ArcGIS中“ArcToolbos”下的“地理加权回归”工具对数据进行拟合,采用高斯核函数来解决各局部回归分析的周围空间环境,以及AICc方法验证的自适应带宽计算方法,在地理加权模型地权融合模型中采用销售量作为因变量,人口Population、兴趣点数据Type01至Type16,Type14存在冗余性,将其剔除;通过采用地权融合模型对模型的拟合,同时消除不同的自变量之间的数据单位不同一的问题,采用归一化对数据进行处理,使得得到的数据相互比较。

8.根据权利要求1所述社交网络大数据商业竞争空间计算选址方法,其特征在于,分布竞选模型的空间竞争选址:基于分布竞选模型建立对店铺之间的吸引力建模分析,获得最终的优选地址并进行推荐,利用基于分布竞选模型的可达性建立地理单元可达性的分析,综合竞争力与空间可达性两种因子,建立空间吸引力评价指标,完成优化选址;

分布竞选模型的竞争区域j的竞争分布与竞争面积i和竞争面积j的竞争量成正比,与竞争区域I与j之间的竞争阻抗参数成反比,建立基于空间可达性的分布竞选模型对区域进行解析,得到每个样本的空间吸引力,并根据已获取的销售数据得到最终选址推荐地点。

9.根据权利要求1所述社交网络大数据商业竞争空间计算选址方法,其特征在于,空间交互可达的空间吸引力模型:采用基于道路网络的空间距离来量化空间可达性,道路竞争密度用来估算竞争网络的发展水平,可达性评估到达某个区域的便利性等,包括:到达目标区域的成本、到目标区域的回归和舒适程度,基于空间分布竞选模型,建立每个空间网格的空间可达性,模型如下:其中aj代表微博签到点j对于格网G中M个快销品零售店的可达性,ri代表快销品的零售店的销售量,Dij代表微博签到点j与快销品零售店i之间的Dijkstra距离,同时避免边界问题,对每个格网样本考虑该格网与周围8个格网的零售店;

RG表示单元格网的平均空间可达性,采用参数α来避免Ri下降的太快,将其设置为0.3,计算附近9个网格中点B和零售店之间的dijkstra距离,采用虚线表示各点之间的距离,最终计算每个空间单元的空间可达性,微博签到位置采用黑点表示,店铺位置采用三角形表示;

得到每个格网的最终的平均空间可达性,将其与通过地权融合模型获取的预测格网相比较,得到最终的选址推荐位置;

获取得到空间可达性数值与地权融合模型获取的销量预测之间存在量纲问题,消除影响因子之间的量纲对计算结果的影响,将获取得到的数据进行处理,使其转换为标量,采用归一化将数据转换为无量纲的处理方式,将物理系统数据数值的绝对值转换为某种相对值的关系,将地权融合模型预测销量数据、空间可达性进行处理,使二者具有可比性,采用Max-Min归一化方式,计算方法如下:将原始数据按照线性转换的方程,将数据转换到[0,1]的范围内,即对原始据进行等比例缩放到新的数据,其中z为归一化之后的数据,xi为原始数据,max(xi)、min(xi)分别为原始数据集的最大值和最小值,利用Max-Min归一化方法将每个格网的销售量和空间可达性进行归一化;

基于对格网的处理,最终得到格网的两个归一化后的参数:销售数据、空间可达性,建立一种评价空间吸引力空间评价模型;

其中pi代表第i个格网的空间吸引力,Normalyi代表第i个格网销售数量归一化后的数值,NormalRi代表第i个格网空间可达性的数值,其中pi数值越大代表区域竞争较小,在该地增开售卖该快销品的零售店铺,反之就不应该在该区域增开售卖该快销品的零售店铺。

10.根据权利要求1所述社交网络大数据商业竞争空间计算选址方法,其特征在于,空间吸引力解析:首先针对每个格网计算其空间可达性大小,计算周围8个格网对其的影响,某些区域空间可达性高,表示该区域的居民离零售店铺之间的距离近,即该区域的零售店铺已能够满足该区域的需求,不需要再增加该区域的零售店的数量;一些区域居民的可达性低,表明在该区域消费的便利性低,即在该地的零售店不能满足该区域的居民需要,适当增加该区域的零售店铺的数量有助于本地居民生活,利用空间竞争评价指标,计算每个格网的空间竞争评价指标pi,得到最终每个格网的空间评价指标。