VR视频里的声音需要方位性
2016-12-28 00:03:39 时间机器影像中心我们在看全景视频内容的时候,其实是追求一种非常好的临场感、现场感,那所谓体验更好的真实性,是和人的交互必不可少的,如果只是静止在那儿被动体验导演给你呈现的内容,这种沉浸感是不够的。大家都体验过VR头盔,你至少转头会看到不同的全景内容,声音也随之变化。在更进阶一点其实 就类似于游戏里边,你从一个房间进入到另外一个房间或者你在一个房间里,你凑近这个房间的角落,或者远离这个角落,你听到的声音其实都是应该不一样的,这和视觉的变化其实是一样的,就是因为这些交互特性的引入,导致了传统和5.1这种混音是不能满足交互需求的。
我们一般来讲整个全景声系统实际上是由采集、制作、到播放渲染这几个比较关键的环节。如果大家对视频这块比较了解其实也是同样的类比,你也需要从全景视频的采集、剪辑到最后播放渲染都是同样类似的几个比较关键的模块。 我们还需要VR全景声的技术,作为一个工程的系统,它要支持耳机播放,因为在VR里面目前是以耳机为主,但是扬声器在内也同样需要支持。
目前VR兴起以后Ambisonic技术则变成了一个重要的技术,所以利用它录音的话,在传统上是以这种比较昂贵的麦克风为主,比如说像TSL的Soundfield,它基本上把麦克风的摆放位置是一个叫正四面体,Tetrahedron的这么一个麦克风摆放,你可以想象它其实就是每一个麦克风朝向一个方向,有朝上的、朝左、朝右、朝水平面四个方向,它可以把360度在一个点上听到的声音收录下来。所以这几款产品TSL、TetraMic就是已经存在很长时间了,然后森海的Ambeo是今年刚出来,这几款都是质量非常高,只是麦克风一个阵列,你如果需要用这个设备去采集的话,也是还要额外去用这种录音设备,我们一般叫它轨机,可以支持多路的麦克风收录。
我们可以看到,通常在一阶Ambisonic用WXYZ来表示,这里边用Zoom录出来的话,它的Z轴是为零,只有WXY。第二款设备是我们公司时代拓 灵推出的产品Twirling720,这款产品是四个channel,四个轨道都是有分量的,因此是更加完整意义上的一阶Ambisonic的录音设备。
当你采音完了以后,所涉及到全景声的传输与存储,目前这一块我个人认为是业界没有解决的最大的一个问题所在。一旦牵扯到传输与存储,它要求很强的格式上的统一。但是从另一个方面来看,只要谈及到格式,就涉及特别多的商业利益,各家统一起来是非常困难的。
Ambisonic 这个技术也是在VR出现以后可能用得会越来越多,这也是Google或者Facebook他们在兼容的一个格式,因为这个格式其实没有什么专利的限制,所 以是比较开放的。大家如果都遵守一个Ambisonic格式那么我就可以保证我的全景视频在YouTube或Facebook上都可以播。但是这个格式其实某 种意义上就像刚才说的Object Audio或者是Channel-based Audio,我个人称它为表现形式,而并不是一个最终的编解码,因为无论是哪种技术,底层的编解码都可以用MP3或者是AAC来编码,这个具体的编码形式其实是另外更底层的一个技术。
HRTF是我们在做3D音效或者是在声音模拟里面最关键、最核心的技术之一,它底层的数学不算特别复杂,是用一些有线的FIR滤波器,模拟从头部到声源之间信息传输的信号Signal path,然后用一些简单的数字来模拟一下。