通过触觉“看”世界,MIT“超能”机器人诞生
机器人又向人类接近了一步!MIT的科学家们教会了它们联结感官,让它们能通过视觉和触觉来识别物体。
撰文 | 李薇达
我们先来做一个小测试,假如现在摆在你面前的是一盆仙人掌,你愿意用力把双手按到仙人掌上吗?
相信大部分人会拒绝这样无厘头的要求,因为光是看看仙人掌的尖刺就能想象出它们扎到手上的感觉。
我们人类能很轻易地通过观察物体的外观知道它的触感,或者闭眼触摸某物体就能在心里描绘它的模样,但是对于机器来说,要把多个感官联系起来却是个巨大的挑战。
近日,来自麻省理工学院计算机科学和人工智能实验室(CSAIL)的研究人员发表了一篇论文并宣布,他们研发出一种新型人工智能系统,这一系统能让机器人像人类一样联结多种感官,即能够从触觉信号生成物体的视觉表象,并从视觉数据片段预测物体的触感。
契机
论文的第一作者李昀烛(图片由本人提供)
论文第一作者,CSAIL的博士生李昀烛告诉“赛先生”,触觉和视觉对人和物理世界的交互非常重要,在这个过程中,我们培养了很强的跨模态预测的能力。比如看到一个平坦或者粗糙的表面,我们能直接想象出触感,即通过“看”来“感觉”;当我们闭上眼睛四处摸索的时候,我们能通过触觉反馈来想象我们摸到的东西,即通过“感觉”来“看”。于是研究人员们希望让机器人也具备这样的能力,即“learning to feel by seeing and learning to see by touching”。
如何实现
机器臂和传感器(图源:《Connecting Touch and Vision via Cross-Modal Prediction》)
团队在一个KUKA机械手臂上放置了名为GelSight的触觉传感器(该传感器由麻省理工学院Edward H. Adelson教授所在的实验室研发),并让这只手臂去戳弄不同的物体。GelSight表面有一层薄膜,在接触物体的过程中会发生形变,进而采集到高质量的触觉数据。
同时他们还设置了一个独立的网络摄像头来进行记录。
为了教会AI如何通过触摸来识别物体,团队记录了超过12000个机器手臂触摸近200个物体(包括工具,织物和各种家用产品)的视频。然后,研究人员把这一万两千多个视频片段分解成单独的帧,获得了一个超300万视觉/触觉配对图像的数据集——VisGel。
操作过程,绿框中为实际情况,红框中为预测情况(图源:visgel.csail.mit.edu)
有了这个数据集,当AI模型辨认到接触位置的形状和材料,它就能将当前帧与参考图像进行比较,以识别触摸的位置和范围。另外,参考图像有助于将物体和环境的细节进行编码,使机器学习模型能够自我改进。
除了VisGel数据集,团队还采用了一种叫对抗式生成网络(generative adversarial networks,GANs)的技术。从字面意思不难猜到它会涉及两个“对手”,一个称为Generator(生成器),一个称为Discriminator(鉴别器),生成器的目标是创建真实的图像来“欺骗”鉴别器。每次鉴别器“捕获”生成器时,它必须暴露内部推理来做决定,这就允许生成器可以依此来反复改进自身。
研究中的挑战
研究过程中,触觉传感器要收集大规模数据(图源:visgel.csail.mit.edu)
对李博士和他的团队成员来说,这项研究最大的问题在于触觉传感器的选择以及大规模数据集的收集。另外,由于视觉关注的信息相比触觉会宏观很多,如何处理这种比例上的差距也是研究过程中遇到的一个比较大的问题。
与此同时,目前收集到的数据均为在受控环境中的交互样本,团队希望通过收集在更多不受控环境中的数据,或者使用MIT设计的新型触觉手套来增加数据集的样本多样性和数量。
其次,该系统现在还不能仅通过触摸来判断物体的颜色,也不能不触摸沙发就判断它有多软。不过,研究人员认为可以通过建立更多模型,扩大可能结果的分布来改善这一点。
应用意义
李博士认为这项研究能够让机器人抓取变得更有效率,他表示:“如果我们能帮助机器人在触摸物体之前就预测‘感觉’,那么在规划机器人抓取的时候,就能更高效,比如我们会更倾向于抓取看上去摩擦力更大的部位;同样的,如果我们能帮助机器人从‘感觉’来想象物体,那么在光线条件比较差的情况下也能很好的工作,比如伸到盒子或者口袋里进行抓取。”
加州大学伯克利分校博士后研究员Andrew Owens也表示,这种人工智能模型对机器人学很有用,因为这门学科经常要求计算机回答“这个物体是硬的还是软的?”或者“握杯子的方式有多好?”这类的问题。而通常这类问题都很难回答,因为机器给出的信号是如此不同,但是这个研究模型证明了它巨大的潜力。
目前,李博士团队计划更进一步的探索视觉和触觉之间的关系,以及如何运用这两种模态的信息去帮助机器人完成更复杂的任务。
参考资料:
[1] https://news.mit.edu/2019/teaching-ai-to-connect-senses-vision-touch-0617
[2] http://visgel.csail.mit.edu/
文章头图及封面图片来源:Nicole Gray/thenextweb.com