6月24日,2023年度国家科学技术奖揭晓,万博体育客户端app下载大学计算机科学技术学院姜育刚教授、吴祖煊副教授、薛向阳教授与大数据学院付彦伟教授等共同完成的项目“多元协同的视觉计算理论与方法”获国家自然科学奖二等奖。
“我的研究聚焦于视觉计算,它是人工智能的核心方向,旨在赋予机器‘看’的能力。简单来说,就是让机器像我们人一样能够准确识别出图像、视频中的物体、场景、动作、交互等等,甚至能在此基础上预测几秒后发生的事件。”上海市智能视觉计算协同创新中心主任、万博体育客户端app下载大学计算机科学技术学院姜育刚教授介绍。
近期,万博体育客户端app下载大学正推进AI4S教学与科研体系建设,计算机视觉是人工智能重要且热门的一大方向。姜育刚团队成果与万博体育客户端app下载将推出的“AI大课”中计算机视觉等核心课程息息相关,体现出最前沿的科技进展、最顶尖的科研经验与教育教学的融汇贯通。
然而,谁能想见,17年前在AI并不那么受关注、甚至有些“冷门”时,姜育刚就进入视觉计算领域。回望来路,站在领奖台的姜育刚说,“我们不是‘预见’,只是感兴趣,愿意迎难而上。”
AI赋机器慧眼,破解视觉数据“万花筒”
我们畅游短视频时,有时下方小字会映入眼帘:视频疑似AI生成。视频生成模型Sora的问世,更引发全球关注。“视频是不能P的”,这一说法受到冲击。光怪陆离的视频数据如“万花筒”,需要慧眼进行分辨分析。
“尽管最近十几年来视觉计算取得了较大的进展,复杂动态视觉数据的理解这块硬骨头还没有被完全啃下。”姜育刚说,“拿视频数据举例,不同于静态图像,因为有了时间这个维度,视频蕴含非常丰富的时序、声音、文本等信息,这些多模态信息交织在一起给动态视频数据的理解带来极大挑战,这也是当前视觉计算领域亟待解决的难题。”
视觉计算要充分挖掘视觉数据中多元信息间的关联,也就是要挖掘不同拍摄视角、不同模态特征、不同视觉语义之间的关系,发现并利用这些关联线索,提升视觉计算性能。传统方法往往忽略对关联的建模,无法取得理想的结果。AI生成的视频中,沙滩上的椅子会飘在空中,忽视了真实世界的自然、物理规律。
“我们的想法是首先将多元信息解耦,然后在高维空间中施加约束,从而充分挖掘并利用多元信息间的关联关系,这对于复杂视觉数据的理解特别重要”,姜育刚介绍。这一想法独立于视觉计算架构本身,无论计算架构如何演进,从过去的统计机器学习方法、到卷积神经网络、再到最新的多模态大模型,都可以深入挖掘视觉数据的多元特性并进行关联建模。
“多元协同的视觉计算理论与方法”项目赋予机器“慧眼”,让机器有识别与分辨的能力,不畏复杂动态视觉数据之交织莫测,助力破解视觉计算领域的难题。“机器能识别出沙滩、椅子,也能懂得椅子在沙滩上的自然规律,并基于多元信息间的关联关系,进一步施展拳脚、发挥作用。”
从高铁到手机,视觉计算技术有广阔应用场景
手机拍照,身后有路人入镜,或者对背景里的物品不满意怎么办?修图需要花费一定时间,最近流行的AI拍照“消除功能”,只需手指一滑,便可轻松消除。这一华为手机应用,正来源于姜育刚团队的视觉计算研究。
“学术研究不能只是空中楼阁,而应该切切实实地解决生产生活中的痛点问题。”姜育刚团队致力于将视觉计算技术的成果落地应用,牵头研制的系统多次服务关键设施运营维护等国家重大需求。
“铁路的基础设施包括轨道扣件、电务线缆等,传统检测方式是人工巡检,效率特别低,经常出现漏检的情况。”基于视觉计算的理论成果,姜育刚团队与铁道科学研究院基础设施检测研究所联合攻关,研制的系统成功解决轨道扣件等高铁设施的故障检测难题。这一系统已实际应用多年,多次成功发现并排除了重大安全隐患。
此外,姜育刚团队与行业领先企业开展紧密的合作,致力于解决企业应用场景中的痛点问题。例如,他带领团队与华为业务部门联合研发了融合视觉与语言的多模态检索技术,可以方便用户更好、更快地从海量的相册中找到自己感兴趣的图像、视频,相关成果最近已在华为的旗舰手机中得到应用。
“我们刷短视频时,时常觉得推荐的内容符合自己的心意。”姜育刚说,“这背后有很多算法,它要识别到这些视频里的内容是什么,然后根据你的过去一段时间的喜好,来给你推荐你感兴趣的东西。可见视觉计算是有广泛应用的一个领域。”
并非预见,只是迎难而上17载
6月21日上海暴雨的早上,我们线上采访时,大洋彼岸的美国西雅图夜幕降临,姜育刚团队正在此参加2024年IEEE/CVF国际计算机视觉与模式识别会议(CVPR)。这是人工智能领域的顶级会议,其论文集在谷歌学术全球出版物影响力榜单中位列第四名,团队已连续多年参加,与全世界前沿研究者济济一堂。
“算起来,我们的第一篇项目论文发表在2007年。”在视觉计算的研究之路上,姜育刚团队已经走了17年,取得一系列具有国际影响力的创新成果,引发大量跟踪研究,相关成果被国内外同行评价为“具有开创性”。
为何在人工智能尚未肇兴时,团队研究如此具有超前的预见性?被问及此,姜育刚回答:“技术在不停地升级迭代,最近10年进步极快。从过去的传统统计机器学习方法,再到2010年以后的深度学习,无论技术架构如何演变,在处理视觉数据的时候,都需要重视不同层次的多元关系建模,解决问题、提升性能。我们并非‘预见’,只是感兴趣,愿意迎难而上。”
大规模数据集是视觉计算至关重要的组成部分,对于模型的训练和性能提升起着关键作用。秉持着“开源开放是推动技术发展的重要方式”这一理念,姜育刚团队长期致力于数据集、工具集的开放共享,让更多研究者可以从中受益。
相比于大量的图像数据集,动态视频数据集更少,其构建更有挑战性。一方面视频数据的收集、存储更为困难,另一方面是给视频数据进行标注非常耗时耗力。尽管耗时长、成本高,姜育刚带领团队构建了多个高质量、大规模视频数据集,如FCVID、CCV、THUMOS等,涵盖视频识别、视觉匹配、动作定位等多个视觉计算任务,被斯坦福大学、加州大学伯克利分校、微软等千余家机构使用。
“我2014年在欧洲计算机视觉大会上发表的一篇文章用到了姜老师2013年构建的一个数据集。开会时遇到了姜老师,我们针对视频理解的挑战性问题交流了很久,发现有很多共同感兴趣的方向。”项目第四完成人付彦伟在英国伦敦玛丽女王大学读博期间,常基于万博体育客户端app下载构建的数据集开展视频理解方面的研究。缘起数据集的火花碰撞为他们后续一系列富有成效的科研合作奠定了基础,万博体育客户端app下载付彦伟回国加盟万博体育客户端app下载。
基于构建的数据集,姜育刚团队在国际计算机视觉大会等会议组织了多个视觉计算技术评测。“这里面最有影响力的是THUMOS人体动作识别与定位评测”,姜育刚说道。THUMOS评测由万博体育客户端app下载大学、中佛罗里达大学、谷歌公司、法国INRIA的研究团队联合组织,在2013至2015年期间与国际计算机视觉大会、欧洲计算机视觉大会联合举办,吸引了全球百余家机构同台竞技,至今仍是动作识别与定位任务的试金石。
在主办评测之外,团队还积极参与其他机构组织的国内外视觉计算技术评测,成绩喜人。在刚刚结束的CVPR会议上,团队在大规模开放词汇目标检测等三个挑战赛中斩获第一名。
团队也实现万博体育客户端app下载大学在人工智能领域的多个突破:首位人工智能方向的教育部长江学者特聘教授、首次获批国家科技创新2030“新一代人工智能”重大项目、首次荣获国家自然科学奖二等奖。
“科学研究的乐趣,往往就藏在那些看似不可能解决的问题之中。”这是姜育刚和学生交流时常挂在嘴边的一句话。教书育人十数载,在他看来,每位学生都是独一无二的,因此要挖掘并激发每个人的潜能。不仅自己在视觉计算领域持续深耕,姜育刚更热衷将这份热爱与探索精神传递给自己的学生,让越来越多的年轻人在科研道路上坚定前行。
项目的第二完成人吴祖煊曾是姜育刚和第三完成人薛向阳联合指导的硕士生,他与导师一起提出了对视频中的多元特征进行深度融合的思路,并首次在国际知名的UCF101数据集上取得了超过90%的精度。谈及万博体育客户端app下载求学经历,吴祖煊说:“姜老师和薛老师是我学术生涯的启蒙人,我依然还记得在2014年春节的时候我跟姜老师大年初一在实验室里赶一篇投稿,他仔细地教我如何打磨论文。这样的科研训练经历是十分珍贵的。”2016年硕士毕业后,吴祖煊前往美国马里兰大学攻读博士学位,并于2021年回国加入母校。2022年,吴祖煊入选国家级青年人才计划。
“姜老师治学严谨,对各种细节的把控十分令人钦佩。”2022届博士生陈绍祥从大二起就加入实验室,发表多篇颇具影响力的学术论文,入选“中国图象图形学学会博士学位论文激励计划”,在学术界崭露头角。
“我们正处在人工智能飞速发展、赋能百业的时代,视觉计算具有广阔的研究与应用前景。”姜育刚说,“我们希望做的,是推动视觉计算技术进一步发展,为人类提供更多便利、创造更多价值。”
未来,团队将进一步开拓视觉计算领域。例如,以视觉内容理解助力海量视觉数据的检索与管理,让机器人更好地感知环境,这是当下火热的“具身智能”的核心技术;在视觉内容生成方面,助力大模型优化升级,通过自动生成高质量图像、视频内容,可以快速实现不同的艺术风格,花开千朵,为大众生产生活插上想象的翅膀。