近日,在蒙特利尔举行的神经信息处理系统大会(NeurIPS)上,英伟达在一篇题为视频到视频合成(“Video-to-Video Synthesis” 的技术论文中阐述了其最新AI成果。

据透露,英伟达最新研发的这项成果,是可以渲染合成交互式3D环境的AI技术。在创建逼真的3D环境时,英伟达研发团队不再使用传统的图形技术,而是使用神经网络 ,特别是生成模型,通过来自如YouTube等来源的真实视频,进行模型训练,最终构建逼真的3D虚拟世界。

英伟达研发团队之所以使用“生成模型”来提高输出的准确性,是由于这种模型要求机器必须有效地内化数据的本质,它也因此被广泛认为是促进机器“理解”大量数据之间关系的最有前途的方法之一。

但是,像所有神经网络一样,使用这个模型也需要训练数据。幸运的是,英伟达研发团队将AI模型应用于街景,通过自动驾驶项目采集到的大量视频数据,确保了其关于城市街道上行驶车辆的训练镜头,再以分段网络识别不同的对象类别,如地面,树木,汽车,天空,建筑物等,开发算法以了解每个对象与其他对象的关系,最终,这些模型创建了城市环境的基本拓扑结构,然后AI再从基于从训练数据中学到的东西,模拟世界外观,包括照明,材料和动态等,由此生成几乎是还原性的高逼真3D环境。

“由于场景是完全合成生成的,因此可以轻松编辑以删除,修改或添加对象”英伟达表示。

在论文中,英伟达研发团队得出的结论是:“我们提出了一种基于条件生成对抗网络(GAN)的通用视频到视频合成框架:通过精心设计的发生器、鉴别器网络以及时空对抗物镜,我们可以合成高分辨率、照片级真实、时间一致的视频,大量实验表明,我们的结果明显优于最先进方法的结果。

不得不承认,迄今为止,AI已经是人类最强有力的创新加速器,它让人类的能力得以延展,并逐渐变得更加强大。我们都能看到,在全世界范围内,数以万计的科学家们都在为AI技术的前沿突破做出努力,除了英伟达之外,不论是像GoogleFacebook这样的海外巨头,还是类似国内旷视科技、极链科技这样的AI科技公司,都致力于全力研发产出能像人一样思考的AI技术。今天,旷视科技已经实现AI识别人脸对象中的各种特征,极链科技已经实现AI理解海量视频的场景表达,而未来,AI必然不仅是会让机器知其然,还要做到让它知其所以然”,以最终实现推动整个AI进入深度智能的伟大愿景。