专访百度杨睿刚:押注AR营销和无人驾驶,后者或面临法律道德双重考验?



来源 | 青亭网

李锋 | 撰文

freeAll | 编辑


近几年,VR/AR、无人驾驶等黑科技,无一不成为科技界讨论的热点。而作为对业界有风向标作用的BAT之一,百度的一举一动尤为引人关注。

 

今年五月,百度CEO李彦宏曾坐无人车上五环,据说就吃了一张罚单。而11月的百度世界大会上,李彦宏承认:我们确实收到了一张罚单。但他同时指出:无人驾驶罚单已经来了,无人车量产还会远吗?


显然,百度在无人驾驶上已经信心十足了,而且在此次大会上,还宣布了无人驾驶将于2018年量产。


 

百度认为,现在已经进入了AI的时代。百度也构建了人工智能的生态系统,提出ABC的战略,算法,大数据,计算能力构成了基础层。上层还包含Speech,Image,Video,AR/VR。百度不仅开放了AI平台和深度学习平台,还打造各种各样的应用。

 

百度不仅开放自家的平台,甚至为了更全面拥抱AI,不惜重金挖来前微软副总裁陆奇。可谓大手笔。

 

至于AR方面,百度将这项技术大部分应用在广告领域。此次推出的AR平台 DuMix,如杨睿刚所说:此版本跟踪效果更强大,而且加入了新功能:语意的SLAM、手势识别。



那么,在AI时代的前夜,百度对于AR和自动驾驶有哪些布局和看法?青亭网带着相关问题,对百度计算机3D视觉首席科学家杨睿刚进行了采访。

 

杨睿刚毕业于UNC-Chapel Hill(北卡罗来纳大学教堂山分校),主要从事与三维重建相关的工作。他在2016年年底进入百度,成为百度研究院的科学家。无人驾驶、AR/VR、机器人都是他的研究领域。

 

以下是采访记录,略经过编辑。

 

Q:可以介绍一您的个人经历吗?

 

A:我是在UNC-Chapel Hill拿到的PhD,在PhD时,UNC-Chapel Hill的AR/VR在世界上都是一个先行者,我在读PhD就已经见过看过用过很多很多种。那个时候(设备)很重很大。现在就变成一个consumer product(面向一般消费者的软件),在读PhD的时候,做了一个telepresence项目。

 

什么叫telepresence呢?我们就是希望通过很多的相机,投影仪把人重建出来,这些重建的数据会传到很远的地方,然后在另外一个房间,然后把这个人重建出来。给大家的印象,就是希望我们得到的就像一面镜子那样的想法,但是我们是双向,今天看到的都是单向。不仅要把对方采集到也要把自己采集到,可以双向的交互。

 

你甚至可以想象你在美国,我们之间有扇窗户,透过窗户就能感觉对方。

 

在做这个项目时,我们做了很多显示的工作。当时我们有世界上最好的网络。做到最后最难的事情是什么呢?是三维重建,怎样能把这个人实时显示,这个实际上是我一直做的工作,从2003年毕业,去了美国University of Kentucky大学,从Assistant教授做起,这段时间我做的东西还是跟三维重建紧密结合。我们根据不同的输入,不同的物体,不同的显眼知识,建更多样的模型。

 

去年年底机缘巧合,百度对我三维方面的工作感兴趣,我就加入了百度,加入了百度研究院,做为他们的科学家。在那边做的事情也和三维重建有关。百度的无人驾驶,AR/VR,机器人都是我研究的范围之内。

 

Q:怎么看苹果ARKit、谷歌AR Core?

 

A:他们的工程能力极其极其强。像做SLAM这些东西,在学术界上来说这样的算法,都是非常经典的算法。或者说这个算法可能是十年前就已经非常成型了,但是苹果和做谷歌做的一件事情是把视觉上的那个算法加上IMU集合在一起,并且把IMU用到了极致。

 

视觉领域里面的单目跟踪领域有很一个很难的问题就是不知道物体到底有多大。

 

比如我这瓶水放在这儿是这么大,如果是很大的一瓶水放在很远,看起来也是这么大。但我试过苹果这套系统,他真的是做到了单目情况下通过IMU来解算这个物体的大小,他可以做到好于1%,这是个非常难得的事情。

 

如果你比较苹果的体验和Tango的体验,我个人觉得还是苹果的更好。这里面最主要的原因就是苹果把IMU用到了非常极致。每个IMU都是不一样的,即使同样的算法换个IMU,算法都不一定是最好的。所以我感觉苹果硬件这方面做的还是非常好的。

 

Q:百度先推出DuSee,后又推出DuMix,那么DuMix是DuSee的升级版本吗?

 

A:这是我们最新的版本。里面的跟踪更加强大,然后有很多物体识别的功能,不知道你听没听我的讲座,我觉得最重要的一部分是必须用语义。AR只是一种表现形式,很多情况下不只是想看一下,还是希望能有些交互。实际上就是说那个对物体要有识别,像我们百度原来的首席科学家吴仁达说的更加极致:“AR is AI”。

 

Q:今年百度地图在九月份推出AR导航功能,您觉得AR导航未来的前景怎样?

 

A: AR导航有非常大的前途。很多情况下,比如说A点到B点。打车的时候经常有这个体验,你看地图上两个人都重合了,但是你还是不知道他在哪里。这种情况下AR就有非常非常重要的作用。我觉得这是一个很好的例子。就是最后这个距离,最后你怎么才能把靠的很近的两个人,从A导到B。这种情况下,用AR的方法去导航,非常直接,也非常一目了然。也是一个最好的办法。

 

Q:AR地图对实景的要求更高,如何解决全国范围的实景覆盖,以及之后的实景数据更新?

 

A:我们有很大的一个团队,负责各种高清地图。AR导航里面用的比较多的是在室内导航,比如你去国贸某家店,你看地图去找,也不一定知道怎么走。AR导航就可以。我们有技术的储备,我们通过物体识别,OCI,通过logo识别,通过SLAM加上IMU对人境和环境、相机和环境都做一个精确的定位。人我知道我在哪里,环境的话我得知道不光是一个x、y、z,我还希望知道这个点附近到底有些什么样的点,这个也就是说环境不能抽象成一个坐标,我还要知道坐标附近有什么。从某种意义上来说是一个知识图谱,一个地图的知识图谱吧。

 

Q:目前来看,无人驾驶离落地还需要克服哪些技术难题?

 

A:在百度大会上,昨天刚刚公布了2018年就会量产。技术上也有一些挑战,实际上更多是来自法律和保险。比如法律上的一些挑战,撞人到底伤谁。技术上,要把成本降下来。再说任何系统都可能失败,包括人。但是恐怕人可以接受人的失败,但是人不一定能接受机器的失败。所以说有两方面的说法,第一我们要在技术上做到极致,我们要做到99.999999………%。第二我们要在法律上更加完善这条红线到底画在哪里。就是这两方面吧。

 

Q:无人驾驶怎样解决“撞一个还是两个”“伤别人还是自己”等逻辑问题?

 

A:我们目标是不撞任何人,不损害任何人。我不可能让2000磅的车在1米之内就停下来了,所以说呢,要解决这个问题我们还是要从感知的角度上,就是比别人看的更远,更多,更精准。就不会有这种道德上的事故。

 

Q:vSLAM方案是否是AR的未来?

 

A:SLAM是基本的技术,SLAM加上更多的sensor(传感器),将来肯定会有新sensor(传感器),比如以前我们使用IM现在都使用IMU,将来都可能用深度相机,把这些结合在一起,这个技术会越来越成熟。

 

Q:基于LiDAR的自动驾驶定位方案很精准,但非常昂贵,是否已经有这方面的新进展?

 

A:很多创业工司都在绞尽脑汁做的事情,当这个量足够大,投入资金足够多的话,而且硬件也带的话,给到还是很快的,还是很有希望的。

 

Q:认为双目、单目、深度这几种方案哪个更有前途?

 

A:这个要看应用啊。比如降低最低成本,我只要做些AR的overlay(指的就是覆盖一个简单的虚拟图像,比如Pokemon Go),那就单目就够了。比如无人驾驶,我不能去乱猜,我希望我能知道这人到底离我5米还是10米,或者有个物体,然后我找个参照物,比如一块石头掉下来,在掉落过程中,到底多远,至少是双目。这个完全取决于各种各样的应用场景,看tradeoff(取舍),没有最好。

 

Q:您觉得未来AR发展的前景怎样?可能更注重于哪些方面?

 

A:这是一个价值十亿美元的问题,如果可以正确解答这个问题的话,我们也就不用坐到这里了。首先技术上还是要提升,实际上很多AR content(内容)还是做得粗糙。比如,很多人用VR头显看那个全景图,在看全景图时,我们有些高清4k,8k的,也有普通2k立体的,不少人愿意看高清的。我认为现在在立体视觉上还达不到这样的一些要求。所以,技术上还要有发展,里面还有不少计算机的瓶颈,算法的瓶颈,甚至还有一些数据传输的瓶颈。这些的话可能需要一定时间打磨一下。


(END)