2023年10月31日

阿里巴巴科学家拍马屁表示看好AR在四大新零售细分方向的应用

作者 admin

我最近注意到,国内无人便利店飞速发展,采用各种不同的技术方案。其中,计算机视觉是最核心的技术之一。阿里巴巴的淘咖啡无人超市和Amazon Go都是这条技术路线上的领先者。值得一提的是,在这些技术方案背后,任小枫是不可或缺的人才。任小枫曾是亚马逊的最高级别华人科学家,在Ama…(略)

我是云栖大会现场的媒体跟踪报道人员,今年我来到了杭州,参加2017云栖大会。这次大会在10月14日的阿里巴巴新零售峰会上,任小枫进行了精彩分享,并围绕“人工智能如何在新零售场景下进行应用”这一主题展开了演讲。

任小枫指出机器视觉作为一种获取信息的通用手段具备很多优势,但同时也存在一些短板。因此,在新零售场景下,我们需要创新探索更多的适用并且能够解决问题的新型技术方案。他还强调表示,新零售是以消费者体验为中心的泛零售形态,需要我们花费大力气去获取数据,尤其是在线下场景中,需要通过视觉或其他更多的技术手段去获取更多的有用信息。在这个意义上说,新零售本质上是由信息驱动的。以上是任小枫的精彩观点,让我受益匪浅。

我是在云栖大会上听到任小枫进行的计算机视觉发展的介绍的人之一。他详细地解释了计算机视觉的发展水平和能够实现的事情以及未来的潜力。

任小枫还列举了他对新零售中最感兴趣和最看好的四个应用领域,包括增强现实、智能门店、机器人和可穿戴设备。

在分享中,我听到了任小枫谈到了作为一名技术人员,他大多数时间都在思考如何解决实际的技术问题,但也会思考未来是什么样子的。他也提到了阿里研究院前段时间关于新零售的报告,其中对新零售做了非常全面的总结:新零售是以消费者体验为中心的泛零售形态,由数据驱动。这句话里面包含了很多信息和想法。在这种情况下,计算机视觉要不断探索创新的技术方案,以应对未来新零售发展所带来的更多挑战。

我是听到任小枫分享的人之一,他认为新零售是一个非常广泛的概念,应用场景非常多,包括批发、零售、物流、娱乐、餐饮等各个领域。不过,其中几个关键词是“体验”、“数据”和“泛零售”。对于如何提升消费者的体验,他认为在座的各位比他更有想法和经验。而他自己则是研究人工智能的,主要研究方向是计算机视觉,他分享了一些他在获取有用数据方面的心得。

虽然数据的应用场景很多,但无论在哪种场景下,购买东西的本质都是人和商品之间的关系。我们需要去理解人、理解物,将人和物联系起来,让用户更好、更快地找到感兴趣、满意的商品,或者让商品更好、更快地送到用户手中。

计算机视觉是获取有用信息的重要手段

而要获取有关人和物的信息,尤其是在线下场景中,计算机视觉是非常好的获取信息的手段。任小枫指出,他这样说并不仅仅是因为他是从事计算机视觉方向研究的,而是因为它本身存在很多优势。例如摄像机作为一种通用手段,可通过摄像记录场景的信息,用于获取所需信息。此外,通过计算机视觉,我们可以更好地处理所获取的信息和数据,以更好地服务于消费者的需求。

 

我认为计算机视觉是一种非常强大的工具,它可以识别人、物和动作。而且,它是一种高信息量的感知方式,在现今1080P的视频已经非常普及的情况下,我们可以通过像素来获取很多信息,而且不用很近的距离就能获取到信息。

然而,计算机视觉也存在一些缺陷。首先,它必须在好的光照条件下进行,只有在这种条件下才能获得高质量的信息。其次,遮挡也是一个比较大的问题,如果摄像机被遮挡住,就无法获取到后面的信息。由于我们需要高信息量,所以采用可见光,但可见光波长很短,无法绕开前面的遮挡物。过去计算机视觉应用的一个重要问题是精度不足,但近年来已经得到了很大的改善,并不再是重要的瓶颈。

最后,我认为计算机视觉是利用了我们眼睛感知的规律,它可以通过适应人眼的方式来获取更多的信息。例如,红绿灯、标志牌、商品包装等都是为人眼而设计的,计算机视觉也是基于这些设计规律,试图通过相同的方式来获取更多的信息。

我想和大家介绍一下计算机视觉的发展状况,让大家更好地了解我们的技术水平已经提升到什么程度了。

物体识别的竞赛及其发展历程

国际上有一个非常著名的物体分类竞赛(ILSVRC),它的目标是对一千个物体进行分类标签,让计算机能够辨别出它们是什么。

 

2012年,深度学习技术开始在物体识别问题中应用。之后的六年时间里,计算机视觉的精度持续提高。如果和人类识别错误率相比较,人类在解决这个问题时的错误率为5%。尽管这并不意味着计算机超越了人类,因为人类犯错有很多原因,但我们可以说,在某些情况下,计算机已经达到了人类的精度。

除了“一张图一个物体”的问题,计算机视觉还需要处理很多复杂的场景。因此,ILSVRC也设置了物体检测竞赛,让计算机能够从复杂的场景中找出各种各样的物体。计算机视觉在这个问题上的表现也越来越好。我觉得,计算机视觉的进展真是让人惊叹,而深度学习只是其中的一个原因。

要实现正确地检测物体,必须要有真正准确的标签和位置信息。而物体检测的结果也与阈值有关,如果将阈值调高,返回的错误结果就会更少一些;如果将阈值调低,返回的结果则更多,但可能也会包含一些错误。

总体来说,现在的平均精度(MAP)达到了0.75,虽然与人类还有一定差距。但在很多场景中,计算机已经能够非常好地完成任务了。比如在下面这个场景中,有人、狗、雨伞,还有一些比较小的物品,计算机通常都能够很好地检测。

再来看语义分割的例子。在这种情况下,我们不仅要找到物体的边框,还需要在每个像素点上标注出它到底是什么。例如,在自动驾驶的例子中,算法可以标识出周围的树、汽车、行人以及可能遇到的各种物体,目前我们的精度已经达到了不错的水平。我认为,使用摄像头让无人驾驶成为可能是一个非常有趣的方向。

计算机视觉真的可以完成许多事情。通过多相机跟踪,我们能够识别人的身份,甚至精准获取他的位置信息等等。

我认为,室内定位是一个很有挑战性的任务,虽然有很多方法,比如Wi-Fi、蓝牙等,但它们的实现都有一定的难度。相比之下,计算机视觉能够实现厘米级的定位精度,真是神奇。

在很多情况下,如果只是检测一个人的位置还不够,还需要估算他的姿态。姿态对于理解别人的意图非常重要,我们可以从中获取大量的信息。如果有了姿态之后,我们还可以进行动作和物体的识别,并且在很多情况下,能够识别人的动作。

展望未来,我认为,无论是在室内还是室外,夸张一点说,人类用眼睛可以做到的事情,计算机视觉也能做。几年前,我不敢说这句话,但现在,随着算法和其他能力的提升,在某些情况下,计算机视觉已经非常接近人类的表现。

但是,与此同时,我们也要认识到,对于摄像机拍不到的地方,计算机视觉也是无能为力的。因此,在解决实际问题时,摄像机的布置非常重要,我们需要找到最佳的布置方案,以最大限度地获取所需的信息。

我认为,在考虑摄像机布置的同时,我们还需要同时考虑数据、计算量、成本等与算法结合的问题。综合来说,我对计算机视觉非常有信心。

再回过来讨论新零售。我认为可以把新零售表述为“信息驱动的”,因为很多时候数据并不是现成的,需要我们花费大量的时间去获取。特别是在线下场景中,我们需要通过视觉和其他手段获取有用的信息。

针对四个应用方向的看法

接下来,我想谈一谈我对四个应用方向的看法,分别是增强现实、智能门店、机器人、可穿戴万能助手。

 

增强现实

增强现实是现实世界和虚拟世界的融合,比如,在购买家具时,我们可以利用平板电脑将家具的图像重叠在住宅的图片中看效果。这个过程涉及到三维定位、三维建模、渲染等多个关键技术。现在的建模和渲染技术比较简单,而三维定位技术现在也已经越来越成熟。

我认为,现在的三维定位技术已经越来越成熟了。几个月前,苹果公司发布了苹果手机中精准、实时的三维定位功能,其计算量已经达到了实用的程度。解决了三维定位问题后,增强现实技术可以应用到许多场景。

比如,我的太太常常叫我去商店买东西,但我不知道需要去哪里找这些东西,又不愿意问别人,因此需要花费很长时间。而如果使用定位技术,商店就可以为商品创建出一个精确的地图,引导顾客到达目的地。当然,在这种情况下,增强现实并非关键的技术。

现在,我想继续谈谈虚拟购物。有了增强现实,我们可以将网上找到的商品叠加到家中,观察大小、搭配和光影效果等等。这项技术现在很多人在做,我们很快就能够使用。

智慧门店

下面再跟大家探讨一下智慧门店。我以前在亚马逊工作,非常幸运地在Amazon Go项目开始时加入了这个团队,我们足足历时四年打造了Amazon Go概念店。我对此感到兴奋和自豪。在Amazon Go店铺中,我们的愿景是让顾客体验更加无缝便捷,不需排队、不需扫描、不需结账,只需进门拿走东西即可。

在Amazon Go中,我们解决了线下通用场景下的支付问题,实现了“拿了就走,无需排队结账”的愿景。虽然只省去了支付环节,但要做到高精度还有很多问题需要解决,比如人、商品和动作的识别问题。我们可以把Amazon Go想象成一个通用的线下智能系统,它包含了一个相机网络,可以做很多事情,比如跟踪人、分析人流,分析顾客的停留时间、有没有拿东西、有没有放回去。如果通过人脸识别的技术与身份结合,门店还能随时知道你是谁,并提供个性化的服务。

我认为支付肯定是未来的一大发展方向。很多时候我们还会思考在线上比较容易实现的事情,比如分析顾客的停留时间并提供个性化服务。但是,我们现在在线下也能很好地实现这些功能,甚至有些功能在线下比在线上更为实用。比如,在线下,我们可以通过分析顾客的人脸表情,判断他是高兴、生气还是无聊,这是在线上很难实现的。因此,和线上相比,线下也可能有一些优势。

在不远的将来,像Amazon Go这样的通用线下智能系统将会越来越普及,门店将能够提供更为智能化的服务,让顾客的购物体验更加便利和高效。

我认为,虚拟现实技术是非常强大的,可以在很多方面得到应用。不过,将虚拟现实应用于一家店铺与应用于拥有很多店铺的大商场是完全不同的事情,难度会更加大。此外,要应对比较拥挤的场景,本质上需要在算法和数据方面投入更多精力。但总的来说,这是一种可见的趋势。

机器人

我觉得第三个也很有意思,提到了机器人。前面我们讨论的许多场景都是关于感知的,只是知道那个人在哪里。但其实我们还可以做一些交互,比如语音交互、显示屏交互或视觉上的交互。从物理角度来看,我非常感兴趣机器人的技术,而且现在机器人的发展速度也非常快,我们已经看到很多实例。

比如伦敦的送货机器人,我们可以将其与无人车进行比较。送货机器人的技术和无人车相似,都需要在环境中进行非常精确的定位,要知道路在哪里、哪里需要上下台阶、人在哪里,以及如何才不会撞到人。很多问题都是相通的,但是送货机器人相对简单一些,因为风险较小。但另一方面,这种机器人可以很好地应对一些特定场景,比如人流密集的商场区域,能够快速将商品送到指定的地方。

我认为,对于货机器人来说,成本非常敏感。因此,我们必须选择相对简单的硬件和算法方案来进行开发。

无人机是一个很好的例子,在控制技术方面已经发展得非常成熟。宾夕法尼亚大学在无人机控制方面做了很多工作,通过附带的相机,无人机能够完成看起来非常复杂的动作。

再举一个例子,波士顿的机器人研究也做得非常出色。他们的机器人可以在家里行走,完成非常复杂的任务,比如抓取厨房里的杯子。很多人都希望拥有一个能够洗碗洗盘子或者干其他家务的机器人,虽然这离现实还有一定距离,但我们可以看到这已经不是遥远的未来。

波士顿的机器人主要注重于控制方面,在视觉方面并没有花太多的精力。如果能够进一步改进视觉技术,机器人也可以像人一样识别香蕉皮并避开它,不至于摔倒。即使摔倒了,他们也会自己爬起来,这真的很令人惊叹。

总之,未来的机器人应用前景非常广阔,在物流和门店中都将会有更多的机器人投入应用。我相信,随着技术的发展和不断的探索,未来的机器人会越来越智能、越来越成熟。

别,但随着技术的发展,这些问题也会逐渐得到解决。总的来说,可穿戴设备是一个非常有前景的领域,它可以为我们提供更好的生活体验。

可穿戴万能助手

对于可穿戴设备而言,它是从个人视角出发的,与门店有所不同。可穿戴设备不仅可以记录我们的生活状态,还可以识别环境和人物,同时也可以识别我们的动作状态。它作为一个助手,可以与我们进行对话,提供所需的信息。实际上,它可以做很多事情。

例如,Snap Spectacles出了一款非常好用的智能眼镜,能够很好地记录我们的生活状态。

谷歌几年前开始了谷歌眼镜的开发,但最终没有成功。后来他们推出了企业版谷歌眼镜,可以在制造和物流等行业为员工带来很多便利,比如识别、扫描等。此外,在进行复杂接线的工作时,谷歌眼镜可以指示员工如何连接线头,这是非常实用的。

在七八年前的某个时候,我参与了一个可穿戴相机的项目,我的任务是搜集数据。这个可穿戴相机可以检测到用户在打开还是关闭盒子,以及手里拿着什么物品。当然,它在识别物品方面并不总是准确,但随着技术的不断发展,这些难题肯定会逐步得到解决。总的来说,可穿戴设备是一个非常有前景的领域,可以让我们的生活变得更加美好。难,需要进行深度学习来解决。但是,随着技术的发展和数据的积累,我们可以更好地应用计算机视觉技术来解决现实问题。

我对可穿戴相机非常感兴趣,因为它可以记录我的生活状态,对我很有帮助。但是,目前识别动作依然是一个相对困难的问题。不过,我相信随着技术的进步,我们一定能够开发出更好的第一人称视角识别的可穿戴相机,相对于只能识别环境的相机,它会拥有更多的优势。

我了解到,Hype Cycle曲线是指每个新技术或新产品都要经历的几个阶段。最初大家都很兴奋,但很快顶点就会到来,随后就会出现各种实际问题,曲线开始走下坡路,到达谷底时,现实问题就会暴露出来,只有找到解决方法,才能慢慢爬上去。

现在增强现实已经度过了谷底,在今后我们会看到更多的应用。智能门店还处于山顶附近,面临很多需要解决的问题,而机器人和可穿戴设备则需要更长的时间才能得到广泛应用。但是,曾教授(曾鸣)说过,我们需要着眼于未来五年甚至十年的前景,这些领域的前景是值得期待的。

在很多应用中,计算机视觉都扮演着非常重要的角色,因为它是一种通用的方法,可以获取人物的动作等许多信息。当然,我们需要获取相关的数据,而这有时并不容易,需要进行深度学习等技术来解决。不过,随着技术的发展和数据的积累,我们可以更好地利用计算机视觉技术,解决现实问题。我了解到,许多算法需要进行融合,并需要与传感器进行融合。此外,不仅仅是感知问题,我们还需要与机器人或其他交互方式进行融合。在计算方面,这种融合不一定都是在云端或设备端进行的,也需要云端和设备端的融合。

人工智能和计算机视觉在简单的手势识别、商品搜索、虚拟现实和新制造等领域都有很多应用的可能性。

我们现在处在一个科技发展极快的时代,商业发展也同样迅速。我很期待能成为这个行业的一员,希望能与大家一起努力,建设更美好的未来。


我了解到,上海交通大学博士讲师团队以及BAT实习背景,提供了计算机视觉基础入门课程,通过项目演示和代码示范实现从算法到实战应用的全面深入学习。这个课程覆盖了CV领域主要知识点,深入剖析CV研究体系,同时能轻松快速地实战掌握深度学习应用领域。有兴趣的朋友可以访问以下链接了解更多课程信息:https://www.le我想分享这里的链接:iphone.com/special/mooc/05.html。此外,我还想介绍一个QQ群:624413030,它是AI慕课学院人工智能学习交流的群组,希望和大家一起交流学习。

 

此外,我还想推荐一些相关文章:

如何从零基础开始学习计算机视觉并实战算法,下面的文章可以提供一些帮助。

计算机视觉中有许多优秀的目标跟踪算法,下面的文章介绍了一些更好的算法。

如果您想深入理解计算机视觉的目标跟踪算法,可以查看这篇文章作为学习的起点。