度技术沙龙第46期读图时代的识图技术

简介：2014 年 1 月 18 日，由@百度主办、@InfoQ负责策划组织和实施的第 46 期百度技术沙龙活动上，百度深度学习研究院（IDL）主任研发架构师 / 高

2014 年 1 月 18 日，由@百度主办、@InfoQ负责策划组织和实施的第 46 期百度技术沙龙活动上，百度深度学习研究院（IDL）主任研发架构师 / 高级科学家黄畅博士、清华大学电子工程系副教授，智能技术与系统国家重点实验室副主任刘长松教授，各自分享了其在识图领域的经验和技术。他们的话题涉及“开启读图时代”和“读图技术和应用”这两个方面，本文将对讲师各自的分享做简单的回顾，同时提供相关资料的下载。

主题一：开启读图时代（下载讲稿）

黄畅博士介绍了大量的 Deep Learning 的理念和应用，通过百度深度学习研究院的大量有趣的识图产品，揭晓了读图时代的到来。其演讲内容主要包括：识图技术的进展、识图技术在百度 IDL、识图技术应用的未来。

识图技术的进展

Tasks

Datasets

Descriptors and Models

Deep Learning

识图技术在百度IDL

识图

图像分类标注

商品搜索

人脸图像识别

OCR 文字识别

识图技术应用的未来

增强现实

人机交互

黄畅博士从 Deep Learning 的理念开始讲起，逐步深入到了百度深度学习研究院的各种技术，包括：相同图像搜索、相似图像搜索（人脸、美女、一般图像）、图像知识图谱（花卉）。

“相比 2005 年人们翘首以盼迎接新年的方式，在 2013 年，手机、pad 成为人们记录生活的重要手段，这个时代已是读图时代。”黄畅博士总结道。

主题二：读图技术和应用

刘长松教授介绍了了大量的文字识别、图像识别、人脸识别的技术和应用实例。根据不同的对象，及复杂的应用场景，深入浅出的介绍了图像识别的逻辑、模型和算法，并阐述了传统方法与深度学习的差异。

主要挑战和难点问题

尺度变化
视角变化
光照变化
复杂背景干扰
部分遮挡
非刚体形变
算法的运行速度 (实时性系统的基本要求)

图像识别的几点思考

图像获取的问题
特征的选取对识别性能的作用
位置对齐和归一化极其重要
传统方法与深度学习的对比

“由于切分错误的存在，尽管单字识别可以达到 94-99% 的，地址识别达到 89%，自由书写的普通手写字符串的识别率汉字仍低于 50%，英文单词识别率 10-20%。文字识别寻找一份最优切分路径的方法。”刘长松教授讲解到。

人脸识别的难点

人脸模式类内差异大。人脸的图像观测会受到光线、姿态、视角和聚集的变化而改变；同一人的人脸也会由于本人的时间、年龄、装饰、服饰和化装的不同，其人脸摄影图像而改变；
人脸模式相对类间差异小。世界上数十亿人口，尽管人种、性别、年龄不同，但是人脸的结构基本相同，即人脸的类间差异很小。
实际应用中的小样本问题。人脸图像的维数极高，即使提取 Gabor 等特征，维数还是有几千维实际应用中每个人的训练样本往往只有几个，甚至只有一个

刘教授认为，传统方法和深度学习在图像处理领域正好起到互补的效果。传统的图像识别方法已在多个非互联网领域起到效果。深度学习的理念比较前卫，很适合大数据时代的图像处理。

OpenSpace（开放式讨论环节）

为了促进参会者与我们每期的嘉宾以及讲师近距离交流，深入探讨在演讲过程中的疑问，本次活动依然设置了 Open Space（开放式讨论）环节。在 Open Space 的总结环节，几位话题小组长分别对讨论的内容进行了总结。

黄畅：本来想听听大家谈一谈百度深度学习研究院的识图产品，但好像给大家解答了不少图像处理的问题。希望大家对我们的产品多提宝贵意见；刘长松：大家主要针对读图技术向我问了一些技术问题，现在图像处理公司门槛还是挺高的，大家提的问题都很专业。

会后，一些参会者也通过新浪微博分享了他们的参会感受：

阿牛哥在北京: 刘长松教授谈到了人脸识别可以识别笑脸，可以做光照可控正面照如何做人脸的图像超分辨率呢？增强图像的细节和结构。运动的个人，还有双胞胎，带着面具的人如何辨识？

与时俱进的dev：比较详细介绍图像的处理技术。想了解未来的趋势，一个好的图像识别开发应该注意什么问题？

@机器学习讲座：文本经过长期的人脑抽象，已经成为一个结构化的数据，而图像则是由设备采集并未经过人脑处理的非结构化数据，黄博士认为未来这两块的处理技术会有较大的差别。这跟我先前的总体认识有差距，回去头再好好想想。

度技术沙龙第46期 读图时代的识图技术

主题二：读图技术和应用

OpenSpace（开放式讨论环节）

最热文章

度技术沙龙第46期读图时代的识图技术