日本队第二个球进没进?三维相机判断的标准是什么?
导读
北京时间今天早上,在世界杯E组西班牙对阵日本的一场关键战中,上半场0-1落后的日本队,在下半场开始6分钟内连入2球逆转比赛。其中日本队的第二粒进球,三笘薰在底线附近救回皮球时,皮球十分接近出界,当值边裁也举旗示意此球无效。然而,本届杯赛采用了全新的三维相机技术(多视角成像),在高科技的帮助下裁判最终确认进球有效。日本队也凭借此粒金子般的进球战胜对手拿到小组第一,同时送德国队小组出局。
那么,多视角成像的原理是什么?这一技术为何会成为主裁判作出判罚决定的重要助手?请看鹏城实验室助理研究员焦述铭博士带来的最新解读。
出 品 | Light科普坊
作 者 | 焦述铭(鹏城实验室)
审 稿 | 左超(南京理工大学)
日本队锐角转弯从底线补救回足球
日本队第二粒进球的过程中,皮球在底线上的最小透镜距离一度达到1.88毫米。根据足球规则,皮球是否出界,是根据球体正上方的垂直投影,是否完全过线来判定是否出界,而非球的实体有没有压线。所以,这颗皮球没有出界。
三维相机技术的分析结果
另一方面,对于进球的界定,则是要求皮球整体全部越过球门线。如果刚好砸在球门线上,也只是功败垂成。在一些时候,一个球到底进了还是没进,实在难以判断,诞生了一桩又一桩的“魔鬼进球”悬案。
世界杯历史上头号进球悬案,当属1966年世界杯决赛中英格兰前锋球员赫斯特攻入的那一球。从比赛录像来看,这个球就刚好击中了球门线附近,可到底是进了还是没进呢?尽管当时裁判判定进球有效,比赛中英格兰队也最终以4:2战胜了联邦德国队,捧得了当年的世界杯奖杯,但几十年来争论却一直没有停止。
足球大多数时候是在三维空间中运动,而一台相机或者摄像机拍摄到的画面只是三维世界在某个观看视角上的二维平面投影,这种“盲人摸象”常常会给足球位置的精准判断带来很大困难。下面这段视频中,大家可以看到一件诡异的装置,似乎违反了重力的物理定律,相当于苹果没有从树上砸到牛顿头上,反而从头上飘回了树上,但只要转动一下观看视角,就会发现一切正常,装置“没毛病”。
视频2:一个“违反物理定律”的诡异装置[2]
这一方面说明了从单个视角的画面观看三维物体不免会出现错觉,另一方面也启示我们,更好地感知三维世界一个有效方法就是多个不同视角的观测。
在本届世界杯上,每场比赛都有一套进球判定系统(也称为门线技术)[3]:球场中安装了14台不同角度的高速高清摄像头,将它们各自的画面综合起来,可以比较精准的判断足球的三维空间位置,尽可能避免1966年世界杯的那种争议,类似的系统在早前2018年俄罗斯世界杯和2014年巴西世界杯上也都被使用过。
而即使没有14台摄像机,哪怕只有两个不同视角的画面,相比于单个视角也会获得更多的三维信息。在1966年世界杯30年之后的1996年,牛津大学两位计算机视觉研究者Ian Reid和Andrew Zisserman试图从科学角度再次分析一下那个进球悬案[4,5]。
他们收集到了当时比赛从不同视角拍摄到的两段视频,从单段视频中,他们觉着难以判断足球的精确位置,只能确定足球在一条线上,但不确定在线上的哪个位置,有很多种可能性。他们提取了两段视频的共同图像特征,包括球场边线、禁区线和球门门框线等,然后根据图像特征把两段视频匹配到一起,获得了各自视频那条“可能线”的唯一交叉点,作为估计的足球位置。
图1:牛津大学计算机视觉研究者对于1966年世界杯进球悬案的再分析[5]
最后结论是:这个球距离成为进球至少还差6厘米,也就是说,他们认为这个球当时并没有进,裁判判错了。两人将这一研究工作以Goal-directed video metrology(以进球为导向的视频测量法)为标题正了八经撰写了一篇论文,发表在了1996年欧洲计算机视觉会议(ECCV 1996)上,ECCV是与ICCV,CVPR并称的计算机视觉研究领域的全球三大顶级学术会议。
多视角拍摄是三维相机的一种典型实现方式,好多手机背面都安装了多个摄像机,每个摄像头可以以不同视角获取三维场景信息。而对于人类来说,天生具有左右双眼,而不是一只眼睛,也是为了更好的感知立体世界。尽管左右眼之间的距离间隔比较近,但观看同一个物体时,左眼视角画面和右眼视角画面还是会有些许不同,这有助于我们定位物体的大小远近。
在《亮剑》中,李云龙将军就向我们展示了他的绝招:一下子就看出敌军阵地上的士兵距离自己500米远。
他将手臂伸直,竖起一根手指,分别只睁开左眼和睁开右眼朝着对方目标的附近看过去,会指向两个不同点,如果目标距离自己比较近,两点的距离就会比较小,反之就会比较大,从中可以估算出目标距离自己的远近。
除了多视角成像之外,还有两种常见的三维相机技术,分别是结构光和时间飞行(timeofflight,tof)。使用结构光技术的时候,我们分别需要一台投影仪和一台相机,投影仪会把均匀分布的平行条纹图案照射到物体表面,然后相机从另一个视角观看拍摄条纹。如果物体表面是平的,相机看到的条纹就还是均匀平行的规则形状,可如果物体表面是三维凹凸不平的,条纹就会变得扭曲变形,而且对于不同形状,扭曲变形的方式还会不一样。从弯弯曲曲的线条中,我们就可以反过来推测出三维物体的形状。
图2:结构光三维相机技术[6,7]
而时间飞行(tof)技术中,要想测量目标物体上某一点距离你的远近,发射一束光到那一点,然后这束光碰到物体点,“撞了南墙”不得不走回头路之后,再用探测器接收反射光信号,看一下时间间隔。光的速度是恒定的,从这趟“折返跑”的时间长短中自然可以计算出那一点的远近距离。当然一个三维场景中会有好多个不同物体,每个物体上也有好多个点,为了完整进行测量,则需要逐点扫描,让光束“折返跑”好多次(当然它也不怕累)。
图3:时间飞行(tof)三维相机技术(本文作者自制)
目前一些新款的手机和平板电脑上也都包含了结构光或者时间飞行的三维成像功能,这在不少时候能帮上大忙。
2021年清华大学RealAI团队曾经对20款手机做了一个人脸识别系统破解实验[8],根据真正用户照片做了一个眼睛和鼻子的假面具,尽管这个面具只是以简陋地方式打印在一张A4纸上,测试者还是可以伪装成真正用户,成功将20款手机中的19款解锁。这与人脸识别的人工智能系统的缺陷有关,但也利用了很多手机只有二维平面拍照功能局限,如果手机通过结构光或者时间飞行获取人脸的三维模型,会很容易发现面具部分是平坦的一块,没有正常人的眼睛和鼻子会长成这个形状,自然可以让伪装者通不过认证。
图4:RealAI团队对手机人脸识别的解锁实验[8]
日常电子产品上三维人脸成像功能一般使用的都是非可见光波段,在你不知不觉中完成测量,使用起来方便快捷,技术上测量精确度也在不断提升。当然种种新的担忧也随之而来[9],比如一个人如果“面目狰狞”或者做个鬼脸,表情剧烈变化,人脸形状也会变得明显不同,三维识别会不会出错?伪装者从纸面具“升级换代”到用3D打印制作一个“有鼻子有眼”形状逼真的假人脸模型,怎样应付?人脸识别面临到个人隐私泄露的风险,三维的相比于二维的,会不会更加让隐私荡然无存?
多视角拍摄,结构光和时间飞行是目前三维相机常见的几个“套路”,而研究者也在另辟蹊径,开发出更新型的感知三维世界的方式。
我们可以在相机镜头上做文章,普通的相机镜片又称为透镜,形状是对称规则的,表面是平滑的,而研究者经过精巧的优化设计,让镜片各个部分厚薄不均匀,放大来看,凹凸不平,奇形怪状,称为“相位编码孔径”。通过这样的镜片拍到的照片会略有瑕疵,比如有些地方会稍稍模糊或者颜色扭曲,不过对整体画质影响并不大,人眼不容易察觉到。可这些微小的瑕疵中却暗藏玄机,有“不小的信息量”,因为不同远近的物体通过这样的镜片获得的图像瑕疵是不同的,利用人工智能算法可以直接从这样一张不完美的照片中直接提取出照片对应的远近深度信息[10,11]。
图5:用于三维相机的一块不同方格区域厚度各不相同的特殊镜片[11]
我们还可以从蜘蛛身上做文章,自然界有一种会跳的蜘蛛,称为跳蛛(Salticidae),它们每次总能精准跳到想去的位置,科学家纳闷了,它为啥有这么强的三维立体定位能力?后来发现,原来这种蜘蛛眼睛里有四层视网膜[12],而人眼中只有一层视网膜。
视网膜相当于老式相机中的胶片或者数码相机中的传感器,是人眼获取到图像的载体,单层视网膜决定了人眼获得的图像只能是平面的。而多层视网膜可就不简单了,由于不同层视网膜本身之间就有距离间隔,不同远近物体的投影有的会聚到第一层视网膜上,有的会穿过透明的第一层视网膜,会聚到第二层视网膜上,还有第三层、第四层……可能在某一层视网膜上是聚焦的,呈现的是清晰的图像,在其他几层视网膜上呈现的就是不同程度模糊的图像,一个物体在多层视网膜上产生不同模糊程度图像的分布情况,就显示了它的远近距离,这样一套立体的视网膜系统也可以给我们带来立体的感知。
美国密歇根大学的研究者就仿照这种蜘蛛的眼睛,用一种厚度非常薄的新型石墨烯材料,加工出相当于四层视网膜的四层传感器,构造出了一台新型的“跳动蜘蛛”三维相机[13,14]。
图6:不同远近物体在多层视网膜上会投影出不同清晰聚焦和模糊程度的图像[13]
我们平时生活在一个三维立体世界中,每天都可以体验到“远近高低更不同”,平面二维的图像记录装置总是无法满足我们对于记录真实世界的渴望,对于各种真正三维成像技术的追求也会永无止境。
作者简介
焦述铭,鹏城实验室助理研究员,香港城市大学电子工程博士,从事全息三维显示算法,单像素成像,光学计算,图像处理,信息安全,机器学习等研究,曾获得香港特区政府Hong Kong PhD Fellowship Scheme和广东省“珠江人才计划”海外青年引进计划(博士后资助项目)。在Optics Letters, Optics Express, IEEE Transactions on Industrial Informatics, Engineering等期刊上以第一或通讯作者发表论文20余篇,获得2020年国际显示技术大会(ICDT 2020)优秀论文奖。
担任《应用光学》和《液晶与显示》期刊青年编委,中国光学学会全息与光信息处理专业委员会委员,中国图像图形学学会三维成像与显示专业委员会委员,中国图像图形学学会三维视觉专业委员会委员。担任中国科普作家协会会员,Light科普坊科学家顾问团成员,曾在果壳网,科学大院,南方都市报,读者原创版等网络和平面媒体撰写科普文章,2013年第六版《十万个为什么》图书数学分册和电子信息分册作者之一。
参考文献
[1]https://v.qq.com/x/cover/y0xi3d9qwvvlrpc/n0026ycr9ab.html
[2] The Best illusion of the Year Contest http://illusionoftheyear.com/
[3] 国际足联FIFA官方网站 https://www.fifa.com/technical/football-technology/football-technologies-and-innovations-at-the-fifa-world-cup-2022/goal-line-technology
[4] I. Reid and A. Zisserman, “Goal-directed video metrology,” 1996 European Conference on Computer Vision (ECCV) (1996)
[5]https://www.robots.ox.ac.uk/~ian/wc66.html
[6] 左超,张晓磊,胡岩,尹维,沈德同,钟锦鑫,郑晶,陈钱,“3D真的来了吗?——三维结构光传感器漫谈,"红外与激光工,49(3), 45 (2020).
[7] 湖南大学黄威博士提供图片
[8] https://real-ai.cn/news/company-news/168.html
[9] 罗常伟,於俊,于灵云,李亚利,王生进, “三维人脸识别研究进展综述,” 清华大学学报:自然科学版,61(1), 12 (2021).
[10] H. Haim, S. Elmalem, R. Giryes, A. M. Bronstein, and E. Marom, “Depth estimation from a single image using deep learned phase coded mask,” IEEE Transactions on Computational Imaging 4(3), 298-310 (2018).
[11] Y. Wu, V. Boominathan, H. Chen, A. Sankaranarayanan and A. Veeraraghavan, "PhaseCam3D — Learning Phase Masks for Passive Single View Depth Estimation," 2019 IEEE International Conference on Computational Photography (ICCP), 1-12 (2019).
[12] Q. Guo, Z. Shi, Y. W. Huang, E. Alexander, C. W. Qiu, F. Capasso, and T. Zickler, “Compact single-shot metalens depth sensors inspired by eyes of jumping spiders,” PNAS 116(46), 22959-22965 (2019).
[13] M.-B. Lien, C.-H. Liu, I. Y. Chun, S. Ravishankar, H. Nien, M. Zhou, J. A. Fessler, Z. Zhong and T. B. Norris, “Ranging and light field imaging with transparent photodetectors,” Nature Photonics 14, 143–148 (2020)
[14] K. Shehzad and Y. Xu, “Graphene light-field camera,” Nature Photonics14,134–136(2020)
制版编辑 | Livan
欢迎关注我们,投稿、授权等请联系
saixiansheng@zhishifenzi.com