1.一种音视频播放方法,其特征在于,应用于网络系统中的终端设备,所述网络系统还包括图像采集设备和多个拾音设备,所述方法包括:接收所述图像采集设备发送的第一视频数据和所述第一视频数据中的关注点的位置信息,以及接收所述多个拾音设备分别采集的音频数据,所述图像采集设备和所述多个拾音设备为部署于同一监控场景中的设备,且所述多个拾音设备分散部署于所述图像采集设备的覆盖范围内;所述第一视频数据中的关注点的位置信息是指所述关注点在第一坐标系下的位置信息,所述第一坐标系是指所述图像采集设备根据第一视野区域所建立的坐标系,所述第一视野区域是指所述图像采集设备在采集所述第一视频数据时的视野区域;
根据所述第一视频数据中的关注点的位置信息和所述多个拾音设备的位置信息,从接收到的多路音频数据中选择对应的拾音设备距离所述第一视频数据中的关注点最近的一路音频数据,将选择的一路音频数据中与所述第一视频数据的采集时刻相同的音频数据作为第一音频数据;
同步播放所述第一视频数据和所述第一音频数据;
所述终端设备预先存储有所述多个拾音设备的位置信息,且所述多个拾音设备的位置信息是在第二坐标系下的位置信息,所述第二坐标系为在现实世界中对所述多个拾音设备和所述图像采集设备进行标定时建立的坐标系;所述根据所述第一视频数据中的关注点的位置信息和所述多个拾音设备的位置信息,从接收到的多路音频数据中选择对应的拾音设备距离所述第一视频数据中的关注点最近的一路音频数据,包括:获取所述第二坐标系与所述第一坐标系之间的第一转换关系;根据所述第一转换关系,将所述多个拾音设备中的每个拾音设备在第二坐标系下的位置信息转换至所述第一坐标系,得到每个拾音设备在所述第一坐标系下的位置信息;
根据每个拾音设备在所述第一坐标系下的位置信息与所述第一视频数据中的关注点在所述第一坐标系下的的位置信息计算相应拾音设备与所述第一视频数据中的关注点之间的距离;从计算得到的多个距离中确定最小距离,将所述最小距离对应的拾音设备所采集的一路音频数据作为与所述第一视频数据匹配的一路音频数据。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
如果所述第一视频数据中的关注点的位置信息与所述第一视频数据的前一时刻的视频数据中的关注点的位置信息不同,则执行所述根据所述第一视频数据中的关注点的位置信息和多个拾音设备的位置信息,从接收到的多路音频数据中确定所述第一视频数据对应的第一音频数据的步骤。
3.根据权利要求1所述的方法,其特征在于,所述第一视频数据中的关注点的位置信息是指所述第一视频数据中包括的目标对象在所述第一坐标系下的位置信息,所述目标对象是通过目标跟踪方式确定得到,或者,所述目标对象是基于图像特征识别得到。
4.根据权利要求1所述的方法,其特征在于,所述第一视频数据中的关注点的位置信息是指所述第一视野区域的中心点在所述第一坐标系下的位置信息。
5.一种音视频播放装置,其特征在于,应用于网络系统中的终端设备,所述网络系统还包括图像采集设备和多个拾音设备,所述装置包括:接收模块,用于接收所述图像采集设备发送的第一视频数据和所述第一视频数据中的关注点的位置信息,以及接收所述多个拾音设备分别采集的音频数据,所述图像采集设备和所述多个拾音设备为部署于同一监控场景中的设备,且所述多个拾音设备分散部署于所述图像采集设备的覆盖范围内;所述第一视频数据中的关注点的位置信息是指所述关注点在第一坐标系下的位置信息,所述第一坐标系是指所述图像采集设备根据第一视野区域所建立的坐标系,所述第一视野区域是指所述图像采集设备在采集所述第一视频数据时的视野区域;
确定模块,用于根据所述第一视频数据中的关注点的位置信息和所述多个拾音设备的位置信息,从接收到的多路音频数据中选择对应的拾音设备距离所述第一视频数据中的关注点最近的一路音频数据,将选择的一路音频数据中与所述第一视频数据的采集时刻相同的音频数据作为第一音频数据;
播放模块,用于同步播放所述第一视频数据和所述第一音频数据;
所述终端设备预先存储有所述多个拾音设备的位置信息,且所述多个拾音设备的位置信息是在第二坐标系下的位置信息,所述第二坐标系为在现实世界中对所述多个拾音设备和所述图像采集设备进行标定时建立的坐标系;所述确定模块用于:获取所述第二坐标系与所述第一坐标系之间的第一转换关系;根据所述第一转换关系,将所述多个拾音设备中的每个拾音设备在第二坐标系下的位置信息转换至所述第一坐标系,得到每个拾音设备在所述第一坐标系下的位置信息;根据每个拾音设备在所述第一坐标系下的位置信息与所述第一视频数据中的关注点在所述第一坐标系下的的位置信息计算相应拾音设备与所述第一视频数据中的关注点之间的距离;从计算得到的多个距离中确定最小距离,将所述最小距离对应的拾音设备所采集的一路音频数据作为与所述第一视频数据匹配的一路音频数据。
6.根据权利要求5所述的装置,其特征在于,所述装置还用于:
如果所述第一视频数据中的关注点的位置信息与所述第一视频数据的前一时刻的视频数据中的关注点的位置信息不同,则触发所述确定模块执行所述根据所述第一视频数据中的关注点的位置信息和多个拾音设备的位置信息,从接收到的多路音频数据中确定所述第一视频数据对应的第一音频数据的步骤。
7.根据权利要求5所述的装置,其特征在于,所述第一视频数据中的关注点的位置信息是指所述第一视频数据中包括的目标对象在所述第一坐标系下的位置信息,所述目标对象是通过目标跟踪方式确定得到,或者,所述目标对象是基于图像特征识别得到。
8.根据权利要求5所述的装置,其特征在于,所述第一视频数据中的关注点的位置信息是指所述第一视野区域的中心点在所述第一坐标系下的位置信息。
9.一种计算机可读存储介质,其特征在于,所述存储介质内存储有计算机程序,所述计算机程序被计算机执行时实现上述权利要求1‑4任一项所述的音视频播放方法的步骤。