根据一幅人脸图像,就能估计一个人的年龄,这一计算机视觉识别领域有关深度学习技术的研究,最近有了新的进展。
米兰网页版,米兰(中国),米兰(中国)电子工程学院大三学生周默作为第二作者,与指导老师牛振兴副教授共同完成了一篇题为《基于多输出卷积神经网络的排序回归模型及其在年龄估计中的应用》(Ordinal Regression with Multiple Output CNN for Age Estimation)的论文,这篇论文提出的人脸年龄识别算法,有效地将人脸年龄估计的正确率,从4岁以上缩小到了3.2岁的误差之内。
这一结果已经在主流的年龄估计公共评测数据库得到验证,是现阶段最好的研究结果之一。同时,该研究结果也得到了国际同行的普遍认可,这篇论文已被IEEE国际计算机视觉与模式识别会议(CVPR2016)正式接收。今年6月份,周默将和指导教师一起前往美国,参加一年一度的IEEE国际计算机视觉与模式识别会议。
人脸年龄识别的新进展
今年3月份,人工智能软件Alpha Go和韩国棋手李世石的人机大战引爆了整个IT界。隐藏在Alpha Go身后的就是近些年有突破性进展的深度学习技术(Deep Learning)。自从2006年多伦多大学的Hinton教授发表了一篇关于深度学习的论文开始,大量的学者加入到深度学习的研究中,包括许多美国常青藤学校和诸多高科技公司,Alpha Go只是深度学习技术一个代表。
周默参与完成的这篇论文也是在讨论深度学习技术,特别关注于如何利用深度学习技术更好的完成计算机视觉领域中的一个有趣问题——人脸年龄估计,即根据一幅人脸图像估计用户的年龄。该问题属于计算机视觉与生物信息学的交叉课题,在学术界和工业界都受到普遍关注。例如,微软在2015年推出的应用软件“How Old”就曾风靡一时,被称之为“全球最火测试年龄APP”。然而受到诸多限制,该方向的基础研究一直未有显著突破。
他们的研究,创新性地将年龄估计问题转化为排序回归(ordinal regression)问题,然后首次利用深度学习技术(卷积神经网络CNN)提出了一个解决排序回归的模型(OR-CNN),并将提出的模型应用于人脸年龄估计。
“我们的算法在主流的年龄估计公共评测数据库上,取得了现阶段最好的效果,平均误差达到3.2岁,而之前学术界的所有实验数据误差均在4岁以上。而且,我们的算法具有一定的通用性,一般的排序回归问题,都可以用我们的算法去计算。”周默介绍说。
从码工到科研新秀的华丽转身
“悲喜是风雨,信念是常青树,信念越强大,越不会为风雨所动摇”。得知自己的论文被国际会议CVPR2016正式录用,周默更新了自己已经半年没有更新的QQ签名。
这个觉得自己信念足够强大的本科生,还有一个颇为“神秘”的身份,米兰网页版,米兰(中国),米兰(中国)开源社区的现任负责人。“我们这个社团活跃的人数不多,也就七八个。”
说它神秘,是因为开源社区的小伙伴是校园传说中的技术大牛。他们是一群痴迷计算机和网络技术的人,参与开发并维护西电校园内的Linux软件源。正是由于对开源操作系统开发的热衷和喜爱,周默锻炼出了很扎实的代码编写能力。
谈及同样是本科生阶段就在CVPR发表文章的清华学霸吴佳俊,周默不无自嘲地说,“我不是学霸,其实还是个‘学困生’。我的成绩在全班排名并不是最好,奖学金、数模大赛之类虽也拿过奖,但都是三等奖。每逢考试来临,我也是狂啃书本才能过关。”
一个只偏爱写代码的普通本科生,如何加入了深度学习的科研工作中。这一切要从半年前说起,基于对Linux系统的共同热爱,周默有机会认识了电子工程学院青年教师牛振兴副教授,周默较强的代码编写能力,迅速受到牛振兴的重视,正是在他的带领下,周默走上了计算机视觉和模式识别的探索之路。
勤奋和努力是开展米兰网页版,米兰(中国),米兰(中国)的唯一通行证
从每天埋头做实验到即将去美国参加国际会议,周默笑着说道,“幸福来得有点突然。”
从正式接触深度学习技术到论文被国际会议接收,前后不过半年左右的时间,这其间一定有着不为人知的艰辛和努力。
因为大三的课程安排比较满而且全部在南校区,指导教师的实验室又在北校区,周默每周都要多次往返于南北校区之间,他已经数不清坐了多少次校园末班车了。就这样,周默度过2015年的整个冬天。
硬啃大量的学术前沿文献,快速地完成代码编写任务,准确地搭建模型,实验数据在他的手下开始快速运转起来。
“看着计算机上24小时不停跑动的数据,你的心也会跟着跑动起来,因为你不知道运行后的实验数据是否成功。实验数据没有成功,寻找漏洞,重新改写代码,重新运算。每一次实验,无论成功与失败,都需要认真做好记录,这样我们才能从中发现一些潜在的规律,为我们提升模型效果创造机会。”
周默介绍说:“我们实验室的计算机那真是劳苦功高,一年365天,全年无休。在实验数据运行上,指导教师绝不允许有任何虚假成分。牛老师总是提醒说,科研必须也只能老老实实地做。”
实验数据的获得总是那么的漫长和辛苦,实验没有成功,数据没有跑出来,论文就无法继续撰写。半年间,前后共做了200多次实验,实验数据也从刚开始的2GB到现在的100GB。一篇文章就是半年的实验数据。“记得在最后投稿的前一个月,我和老师在实验室连续加班,每天都工作到凌晨三、四点,终于在deadline之前,递交了我们最满意的版本。”
“论文投出去的那个早晨,已经身经百战的牛老师说,我对这篇文章有信心,但是我也依然无法掌控它的命运。”据了解,每年CVPR会收到来自全球各地1700多篇的投稿,最终会收录300篇左右的文章,录取率保持在25%左右。每年大约吸引3000名左右的参加者,CVPR也是一场计算机视觉学术界研究者的大聚会。
(文/西电新闻中心·赵玉娟)