1.一种音视频播放方法,其特征在于,所述方法包括:接收第一视频数据和所述第一视频数据中的关注点的位置信息,以及接收多个拾音设备分别采集的音频数据;
根据所述第一视频数据中的关注点的位置信息和所述多个拾音设备的位置信息,从接收到的多路音频数据中确定所述第一视频数据对应的第一音频数据;
同步播放所述第一视频数据和所述第一音频数据。
2.根据权利要求1所述的方法,其特征在于,所述根据所述第一视频数据中的关注点的位置信息和所述多个拾音设备的位置信息,从接收到的多个音频数据中确定所述第一视频数据对应的第一音频数据,包括:
根据所述第一视频数据中的关注点的位置信息和所述多个拾音设备的位置信息,从所述多路音频数据中选择对应的拾音设备距离所述第一视频数据中的关注点最近的一路音频数据;
将选择的一路音频数据中与所述第一视频数据的采集时刻相同的一路音频数据作为所述第一音频数据。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:如果所述第一视频数据中的关注点的位置信息与所述第一视频数据的前一时刻的视频数据中的关注点的位置信息不同,则执行所述根据所述第一视频数据中的关注点的位置信息和多个拾音设备的位置信息,从接收到的多路音频数据中确定所述第一视频数据对应的第一音频数据的步骤。
4.根据权利要求1所述的方法,其特征在于,所述第一视频数据中的关注点的位置信息是指所述第一视频数据中包括的目标对象在第一坐标系下的位置信息,所述目标对象是通过目标跟踪方式确定得到,或者,所述目标对象是基于图像特征识别得到,所述第一坐标系是指在现实世界中根据第一视野区域建立的坐标系,所述第一视野区域是指图像采集设备在采集所述第一视频数据时的视野区域。
5.根据权利要求1所述的方法,其特征在于,所述第一视频数据中的关注点的位置信息是指第一视野区域的中心点在第一坐标系下的位置信息,所述第一视野区域是指图像采集设备在采集所述第一视频数据时的视野区域,所述第一坐标系是指在现实世界中根据所述第一视野区域建立的坐标系。
6.根据权利要求4或5所述的方法,其特征在于,所述方法还包括:接收多个拾音设备中每个拾音设备发送的自身的位置信息,其中,每个拾音设备的位置信息为相应拾音设备将自身在第二坐标系下的位置坐标转为至所述第一坐标系下得到的,所述第二坐标系为在现实世界中对所述多个拾音设备和所述图像采集设备进行标定时建立的坐标系。
7.一种音视频播放装置,其特征在于,所述装置包括:接收模块,用于接收第一视频数据和所述第一视频数据中的关注点的位置信息,以及接收多个拾音设备分别采集的音频数据;
确定模块,用于根据所述第一视频数据中的关注点的位置信息和所述多个拾音设备的位置信息,从接收到的多路音频数据中确定所述第一视频数据对应的第一音频数据;
播放模块,用于同步播放所述第一视频数据和所述第一音频数据。
8.根据权利要求7所述的装置,其特征在于,所述确定模块主要用于:根据所述第一视频数据中的关注点的位置信息和所述多个拾音设备的位置信息,从所述多路音频数据中选择对应的拾音设备距离所述第一视频数据中的关注点最近的一路音频数据;
将选择的一路音频数据中与所述第一视频数据的采集时刻相同的一路音频数据作为所述第一音频数据。
9.根据权利要求8所述的装置,其特征在于,所述装置还用于:如果所述第一视频数据中的关注点的位置信息与所述第一视频数据的前一时刻的视频数据中的关注点的位置信息不同,则触发所述确定模块执行所述根据所述第一视频数据中的关注点的位置信息和多个拾音设备的位置信息,从接收到的多路音频数据中确定所述第一视频数据对应的第一音频数据的步骤。
10.根据权利要求7所述的装置,其特征在于,所述第一视频数据中的关注点的位置信息是指所述第一视频数据中包括的目标对象在第一坐标系下的位置信息,所述目标对象是通过目标跟踪方式确定得到,或者,所述目标对象是基于图像特征识别得到,所述第一坐标系是指在现实世界中根据第一视野区域建立的坐标系,所述第一视野区域是指图像采集设备在采集所述第一视频数据时的视野区域。