第(2/3)页 …… 下午两点整,任少卿走上讲台。 报告厅里坐了大概七八十人,前排是几位头发花白的老教授,中间是一群年龄不一的副教授和研究员,后排是一大片跟他差不多大乃至更年轻的博士生和硕士生。 任少卿把U盘插进去,屏幕上亮出报告封面: 《基于改进卷积神经网络的目标检测:突破传统特征工程的范式》 他扫了一眼台下,做了个深呼吸。 “各位老师、各位同学,下午好。我叫任少卿,来自中科大与微软亚洲研究院的联合培养项目。今天我要跟大家分享的工作,核心出发点是一个我认为非常重要的问题——传统的手工特征,在目标检测任务上,是不是已经遇到了天花板?” 后排有几个博士生坐直了一点。 前排的老先生们,表情没什么变化。 任少卿继续往下走。 他讲架构,讲他对AleXNet的改进,讲数据增强,讲在PASCAL VOC上跑出来的结果。 讲得快,但逻辑清晰,每一步推进都有据可查。 讲到第七页,他把那张对比折线图放到了最大。 “……在相同的测试集上,我们的方法在mAP指标上比当前最优的DPM模型高出了11.3个百分点。这个差距,我认为不是调参层面的改进,而是底层特征提取范式的本质性跃迁。” 报告厅里安静了大概两秒钟。 然后,前排左边第二个位置的老先生开口了。 任少卿认识这位老先生。 西安交大计算机视觉领域的老前辈,做了三十年图像处理,手底下出来的博士生如今遍布国内各大高校和研究院,标准的一代宗师。 “小伙子,” 老先生语气并不严厉,甚至带着点慈祥, “你这个结果,训练的时候用了多少GPU?” “四张NVIDIA GTX 780,训练了大约十二天。” 老先生点了点头,慢条斯理地说: “我想问你,这十二天、四张显卡跑出来的东西,在工程落地上怎么解决?你这个模型,推理一张图片需要多长时间?” “目前大概是0.5到0.8秒每帧——” “那实时检测呢?” 老先生温和地打断, “工业摄像头要求的是25帧以上,你离这个目标还差多远?” 任少卿顿了一下。 ——他当然知道差多远。他只是同样知道,五年后这个问题会变成什么样的答案。 “目前确实还不满足实时要求,但是——” “还有,” 旁边另一位中年教授接过话头,语气更直接, “你说比DPM高11个点,但你用的训练数据量是DPM的几倍?GPU算力消耗是DPM的几倍?这个对比,公平吗?” “数据量大约是……两倍,” 任少卿深吸一口气, “算力消耗相对更高,这点我承认。不过我想指出的是,随着GPU硬件成本持续下降,算力约束在未来三到五年内会快速缓解,到那个时候——” “到那个时候再说到那个时候的事。” 中年教授语气不咸不淡, “我们讨论的是2013年可落地的工作。” 后排有几个博士生没忍住,凑在一起交换了几句什么。 任少卿站在台上,握着激光笔的手指不动声色地收紧了一下。 他在组会上被导师骂过,被审稿人拒过,被同组的师兄用红笔密密麻麻划过论文草稿。 但今天这种感觉,不一样。 不是羞辱,老先生显然没有这个意思。 是隔阂。 是两个人分别站在两座山顶,隔着一道深不见底的沟壑喊话。 第(2/3)页