8月3日,依图科技在行为识别领域取得突破性进展。依图科技解锁行为识别又创纪录,打败腾讯、亚马逊成为行业第一。

继蝉联全球权威人脸识别竞赛冠军、先后刷新国际声纹识别权威竞赛(VoxSRC)纪录、行人重识别(ReID)三大权威数据集之后,在权威机构ACM MM’20 Grand Challenge主办的大规模复杂场景人体视频解析挑战赛中,依图科技以大幅领先的成绩拿下了“Track-4:行为识别”的第一名。


ACM是全球最大的计算机领域专业性学术组织,其评选的图灵奖(A.M.Turing Award)被公认为世界计算机领域的诺贝尔奖。而ACM MM是全球多媒体领域的顶级会议,属中国计算机学会(CCF)指定的A类国际会议。

在此次挑战赛中,包括 Amazon、腾讯、大华科技、中山大学等上百支参赛队伍参与了超过56000个复杂事件下的人体行为(包括排队、打架、俯身、同行、跑动、滞留等)解析。


视频中行为识别是本届比赛中的重点项目,目的是考察算法在复杂场景下对行为(包含多人追踪、人体姿态、行为识别)的解析能力。

该赛事是该方向最接近真实场景的大规模挑战赛,依图科技夺冠的同时,其背后的技术创新和对行为识别难题的攻克一时间备受关注。

“过去几十年,算力发展分为两个阶段,一个是蓝色这条曲线,一个是绿色这条曲线,我们分别把它叫做旧时代的或传统时代的芯片,以及新时代的基于GPU或为AI计算定制的芯片。”朱珑表示,蓝色曲线基于传统摩尔定律发展,性能每隔18--24个月提升一倍;绿色曲线是加速的超摩尔时代的芯片算力,过去几年间,AI算力翻了接近一万倍,单个GPU的算力比过去基于CPU的算力多了一千倍。”


至于算法,从2015年开始,机器下棋可以超越人类,机器人脸识别可以超越人类;到2020年的今天,机器跟五年前的机器相比,性能又提高了100万倍。

朱珑表示,2015年机器的识别能力超过了人类,以那一天作为它的基准线,五年后机器又比它自己提高了100万倍,超越人类能力100万倍,在当下的识别能力即感知智能上又提高了100万倍,这是非常惊人的一个数字。

与此同时,它本身用的模型大小、算法参数也增加了一万倍。就跟大脑一样,神经元跟过去的自己相比提升了一万倍;训练的效率、学习所用的能耗下降再提升了一万倍。

“所以现在有一种说法:AI进入了新的算力霸权时代,大家要用千倍、万倍的算力才能训练出世界上最好的算法。”

朱珑表示,新冠疫情早期,依图科技与上海公共卫生临床中心合作研发新冠肺炎辅助诊断AI系统,系统能够基于肺部CT片给出形状、大小等病变的描述,以及定性的诊断,使得医生的判断从过去的数小时,减少到现在机器辅助下的数秒。这是一种视觉感知的智能。

未来,低阶感知智能将向高阶决策智能跃迁;从最初级眼睛看到的视觉感知智能,向完善的知识图谱支持下的高阶认知智能、决策智能甚至是预测智能跃迁。

“在医学领域,我们在儿科医学领域里已经做到,AI能够基于几百万份病例学出近百万的医学同义词,以及近千万的关联关系,在这样的知识图谱下,能够达到接近10年资历医生的诊断水平。”

几年前,一个城市管理要用到的智能计算,需要十几个机柜提供算力支持,需要非常大的空间、投资以及大量的能耗;一年前,由于AI芯片性能的提升,已经能够由十几个柜降到一个机柜。

未来十年,超摩尔时代会带来什么改变?朱珑表示,一个城市管理需要的智能计算,只要一只巴掌大小的芯片就能支撑今天所需要的城市管理对几万路视频、十万路视频的计算需求。