admin管理员组

文章数量:1552534

VR的理想与现实

  • 前言
  • 概念与产品
  • 我们如何“看”世界
    • 单眼成像
    • 双眼聚散与深度
    • 视野范围
    • 人眼分辨率
    • 视觉频率
  • 为什么会晕
    • 视体不同步问题
    • 成像信息混乱问题
    • 对VR\AR\MR的影响
  • 理想与现实
    • 数字影像
      • 静态影像
      • 动态影像
      • 小结
    • 现实捕捉
      • SLAM
      • VSLAM
      • 小结
    • 虚实合并
      • 图像识别
      • 实时拟真
      • 小结
    • 视觉成像
      • 不透光的VR
      • 透光的AR/MR
    • 总结
  • 人机“交互”
    • 交互方式分析
    • 3R交互小结
  • 下一代终端
    • 声音需求分析
    • 图像需求分析
    • 产品比较
  • 结束语

前言

随着技术的进步,尤其是信息传播能力的提升,现今人类文明发展驶入了持续加速的快车道。科学共同体的模式已经将过去几千年知识技术的台阶式渐进发展变为陡坡式爬升,我们时时刻刻都在进步中。更多分享,更多协作,现在再NB的科学家如果闭门做学问,有个3-5年不与外界接触,就会被整个时代抛离。前不久看了《流浪地球》,不说情节设计,对背景设定有个最大感触,真到了太阳寿命快终结的时候,按照现在人类文明的发展速度,探究出宇宙真理不敢说,但银河系肯定早就迈出去了,亚光速飞行和聚变能源真不是啥太遥不可及的技术,有几百年肯定能搞定。

说的远了,回来讲本文的主题。现在VR\AR\MR\CR\XR各种R概念纷飞,让人眼花缭乱,作者希望通过从技术方面的整理分析,对未来5-10年个人终端设备VR\AR\MR的发展做一番展望。首先旗帜鲜明的表明作者个人观点,智能眼镜是一定会取代智能手机成为下一代个人终端的最主要形态,这个时间过程可能至少会是3-5年,但肯定不会超过10年,要相信当前技术发展的加速能力,具体在后文“下一代终端”章节中会有描述分析。
为了省事,本文中所有关系到VR/AR/MR三者全体的描述,都以3R表示,反正写此文纯粹是作者兴致喜好,不涉及凑字数算稿费的情况。本文的内容全部源自互联网公开资料,作者仅试图从自身视角出发,对相关技术内容进行逻辑整理和重组织输出,更方便同好者学习理解。

作者对所有内容来源的被引用者均致以最诚挚的谢意,因参考引用的源头太多与较为零散,且本文也非学术性文章,就不一一列出了。阅读者如果有更深入的学习意愿,也请自行就关键字去互联网检索,无需询问作者有哪些推荐阅读。另外本文适用于WTFPL license,如有读者希望引用转载本文中内容时请参考。

概念与产品

首先明确概念,目前被提到最多的VR\AR\MR\CR\XR几个,就个人理解,现阶段技术相对成熟,有可见工程产品的只有VR(虚拟现实)、AR(增强现实)和MR(混合现实)三类;CR(影像现实)仅是一个成像效果概念,跟产品没任何关系;XR则是个噱头,X代表啥都能装,这种就属于纯粹的概念炒作。

VR产品成熟度最高,作为全封闭影像系统,专注于视频和游戏领域,为用户打造一个脱离现实的环境,类似于网文中的魔幻玄幻历史架空类小说。业内知名产品如全球的HTC Vive、Sony PS VR、Facebook Oculus Rift、三星Gear VR,国内也有暴风、小米和华为等大量价格更亲民的VR产品。虽然仍有不少技术问题未能完美解决,但VR产业已经进入高速成长期,不影响大规模商用。那种用两块透镜看手机屏幕的特色“VR”不在本文讨论范围内。

AR和MR,都是将虚拟图像和现实图像结合在一起进行呈现,类似于网文中的现代都市异能类小说。二者目前概念说法很多,边界定位不够清晰,个人倾向于AR仅做数据图层叠加,MR会将虚拟图像与现实图像结合显示。产品形态上AR眼镜都不是封闭的,现实景象仍然依靠人眼直接捕捉;而MR现在虽然受困于技术,都是不封闭的,但未来发展方向一定是全封闭的,会通过摄像设备捕捉现实景象,然后与虚拟景象结合计算,再将融合结果在眼球前屏幕上成像。具体的分析请参考下文。

MR技术要求更高,目前主流市场上也仅有微软HoloLens和Magic Leap这两款不够成熟的非商用产品。AR相对简单,如Google Glass、EPSON BT系列、Meta AR等成熟产品很多,国内目前也有GLXSS Pro、0glass等应用于如医疗、工业制造等不同行业领域的产品,虽然使用场景严重受限,但价格也大都可以接受。
AR/MR面临的最大问题是应用,因为要跟现实相结合,就不能像VR那样在视频游戏领域天马行空的去创造内容。简单来说就是我们带着AR/MR设备能干啥是很受限的,如果只针对具体场景如行进指路、医疗手术、工程维修等,就太细碎了,花很多钱研发出来的场景应用,可能带不来多少使用效果提升,投入产出比不高,市场自然做不起来。

个人感觉AR更快速的普及发展方向应该是对个人办公系统的替代,通过网络和云桌面结合,能投影个Windows系统出来,随时随地干活儿,取代笔记本和台式机,便携性提升很多,同时不属于新增投资,也更有利于大众的接受。MR技术成本短期内很难有大的下降,且应用方向不清晰,短期内很难有普及性发展,但AR属于MR的过渡技术,终将被MR替代,当然受技术成熟速度和商业发展影响,估计至少要5-10年的长周期才行。

我们如何“看”世界

不管是哪个R,其核心技术都是视觉成像,所以先简单介绍下我们“看”东西的原理,这对后面理解当前3R的技术困境会有很大帮助。

单眼成像

我们看到的景物都是光源发出的光或者物体反射的光。人眼本身是一个可自我调整的精密光学系统,当景物通过晶状体在视网膜上成像,分布于视网膜上的各视觉系统得以感光并将其从辐射能转变为电脉冲,最终由大脑解码产生图像。

视网膜上的感光细胞分为两种:视锥细胞和视杆细胞,分别对应人眼的明视觉和暗视觉。视锥细胞又分为红色、绿色和蓝色感光细胞,其对照明的明暗条件敏感度较低,只有当光照强度达到一定条件时,锥细胞才能够起作用;视杆细胞对光照的敏感度较高,可以在光照条件很暗的情况下对景物成像,却不能感受颜色,这也解释了为什么在晚上的时候人仍然能够看到物体,却不能有效地分辨物体的颜色的现象。

眼球中最主要的两个部件就是负责控制进光量的瞳孔虹膜和控制对焦的晶状体(水晶体),例如近视的主要原因就是总看近处的景物,导致晶状体长时间维持拉伸状态导致无法压缩(就像一直被拉开的弹簧会变得无法自动压缩回弹),远处的景物就无法在视网膜上形成对焦了。我们常说的看书看手机看电脑容易近视,就是因为长期视线聚焦在近处小范围物体上导致的,跟看啥东西其实关系不大。

正常晶状体变化图示

近视眼远景成像问题图示

双眼聚散与深度

前面讲的是单个眼球成像的光学原理,在我们通过视觉系统判断景物的远近距离时,要依靠大脑通过双眼观察到的两幅不同图像进行合成计算。单眼观测图像虽然也能简单依据近大远小来判断距离,但往往不够准确。双眼观测这里有两个重要的计算因素,聚散和深度。我们都知道物体离眼睛越近,左右眼看到的差别就会越大,通过这些物体的光场观测区别,大脑在合成图像时,会给出物体距离更准确的判断。

当看近处物体时,我们称为汇聚,此时两只眼睛是朝内的,汇聚的目的是让你聚焦的地方变清晰。而看远处物体时,双眼朝外,我们叫做分散。大家小时候常玩的斗鸡眼其实就是聚散效果的体现,首先两只眼睛都朝着鼻子的方向看,然后慢慢朝远处望去,双眼汇聚的焦点越来越远,远到无穷远,这时双眼视线就近乎平行了。

另外我们通过瞳孔的进光量控制,可以对物体的深度进行判断。当我们看近处的物体时,瞳孔收缩,减少远处物体的进光量,使其变得模糊,从而给大脑一个深度的信息,用于位置距离的综合计算。

视野范围

视野也被称为视场,指人眼平视某一个点时的视觉范围,这个视觉范围分为三个级别依次降低:最大视野、正常视野和最佳视野。

最大视野指能看到的最大理论角度,包含单眼的范围极限,实际上对视觉成像影响不大,很多边缘区域信息在脑中合成时会被自然丢弃,只有部分经过特殊训练的情况下大脑才会做处理,例如某些桥段中情报人员用视线余光查看追踪对象这种。

正常视野在水平区域左右30-60度之间,垂直区域上30度下40度范围以内,具体都是因人而异的。根据这个数据,大家就可以自行计算,多大的屏幕放置在离眼睛多远的距离是最合适的观看效果了,对大家在挑选电视显示器大小和沙发桌椅高度时,有很大的参考意义。

因为视野范围是考虑到眼球的转动范围,那么就还有个最佳视野的概念,指实际最舒适的眼球转动范围,这个值一般是在更小的水平左右15度,垂直上25下30范围内。当然这也是3R智能眼镜产品应该满足的最低标准。

人眼分辨率

我们到底能看多清楚,实际上并没有啥定论,人眼分辨率流行的说法,从400万到5.76亿像素的说法都有,各有各的算法。以5.76亿为例,算法如下:

  • 人眼分辨率最小细节0.59角分,按0.6角分计算;
  • 一个线对2个像素,一个像素就是0.3角分;
  • 水平横向视野120度,等于24000个0.3角分,就是24000个像素;
  • 按照正方形视野框计算,就是24000*24000=5.76亿像素

算法很简单,但实际指导意义不大,人眼的分辨能力因人而异差别极大,除了感光、色彩、视野这些基本条件外,更重要的是大脑。有个开玩笑的说法,上帝作为人眼设计师,水平是很烂的,也就是个胶片照相机的水平,比现在的数码和光学相机设计差远了;但其作为大脑设计师真是超神级的,可以把人眼吸收到的乱七八糟图像各种组合优化。后期处理无敌,才让我们能清晰地“看”到这个精彩的世界。

因为实际上每个人视觉成像的感知条件相差甚远,所以这里也不对人眼分辨率做过多的剖析,个人比较赞同的观点是,考虑分辨率时成像距离更重要。下面举手机的例子计算。

  1. 假设我们在距离眼睛40cm(15.748英寸)看一个手机,则屏幕上1个英寸对应视野角度约为1.82*2=3.64度(直角三角形两条直角边1/2英寸和15.748英寸,得出短边对应角为1.82度);
  2. 按0.3角分1个像素,3.64度约738个像素,既屏幕分辨率能达到738PPI即可,更高的人眼也分辨不出来。

可以看到上述计算过程中的主要变量只有一个视距,之前苹果MAC曾提出300PPI最佳分辨率的说法,实际上就是将人眼到显示器屏幕的视距设置为1米,按照上述算法计算出来的。同理,如Gear VR和Oculus Rift等产品,屏幕距离眼睛约16cm(6.3英寸)左右,可以计算出分辨率能达到1800PPI即可满足人眼分辨能力。

Google和LG在2018年5月发布的最新VR屏幕已经可以达到1443PPI,随着硬件技术的进步,显示分辨率不会成为3R的关键瓶颈。

如果再考虑到水平120度、垂直上30下40度的正常视野范围,可以计算出16cm(6.3英寸)视距的VR产品,合适屏幕长宽为21.82*(3.6+5.3)英寸,理论上点对点分辨率约需达到39000*16000。但这只是个上限值,实际通过眼动追踪和双屏显示等技术,完全可以不必展示这么清晰的全景画幅出来,人眼也看不过来,要相信大脑的视觉合成与理解能力。

视觉频率

最后一个跟成像关联性较大的概念就是视觉频率了,对应的是屏幕显示技术中的帧率、刷新率等参数。前面提到眼睛成像主要依靠视锥细胞和视杆细胞感光,那么当光反复变化时,我们眼中就形成了连续的过程图像,在这个变化过程中,如果速度过快,会造成成像影响,既人眼只能识别出一定频率的变化,更高的内容会被忽略掉。例如999张黑图片和1张白图片按1ms每张速度变化,我们的眼睛根本看不到白色出现,这就是视觉频率极限。这个频率一般是个范围值,同样会因人而异,通常60hz(120fps)以上的变化大部分人就看不出来了,实际上屏幕显示技术都已经能达到此指标,所以帧率不是3R技术发展的瓶颈。注意,这里60Hz是个范围值,而不是说60Hz能看出来,61Hz就看不出了&#x

本文标签: 现实理想vr