在百度搞发明的日子

作者:发出毛毛毛毛的声音2021.12.20 17:16浏览量:405

简介:为了表彰做出突出贡献的专利发明人,百度将 1000 件高质量专利的名称、发明人镌刻在专利墙上

图片.jpg

他们不仅是当前AI技术革命的见证者,更是参与者和先行者。他们每一个闪光的想法、每一次热烈的讨论、敲下的每一行代码,都影响着未来的变局。

这是一段“后知后觉”的往事。一个十几人的团队,却在3个月内提交了上百件的专利申请。

“技术创新是个循序渐进的过程,我们身处其中,埋头研究,过程中没觉得有啥。事后回头看,才意识到实现了很多的突破。”聊起2017年的这段经历,团队负责人刘经拓说,自己只是和同事一起,“对比较有价值的东西做了一次集中梳理”。

几年后的今天,刘经拓等29名研发人员在百度专利事务部的推动下,被国家知识产权局聘用为中国专利审查技术专家。10月29日颁发证书那天,天气很冷,现场讨论的气氛热烈。有人脱下外套,单着一件T恤,上面写着:“专利才是快乐星球”。

图片.jpg

  • 10月29日,中国专利审查技术专家聘书发放和交流会现场

作为一家老牌技术公司,百度的专利申请量已达3万多件,其中与人工智能相关的专利超过1.3万件。根据今年发布的《中国人工智能高价值专利及创新驱动力分析报告》,百度人工智能专利申请量和授权量连续四年蝉联中国第一。而在专利奖项上,百度已获得12件中国专利奖和1件北京市发明专利奖一等奖,成为人工智能领域获奖数量最多、获奖级别最高的企业。

专利数量和质量,是企业创新能力的一大体现。而百度的创新能力,来自一群务实自驱、喜欢挑战的研发同学。前述29名专家正是其中的实力代表,他们来自百度不同技术或业务部门,全都是硕果累累的专利发明人。

本期度厂观察,我们采访了其中5名专家,试图从他们身上,探寻百度不断实现技术革新的奥秘。

-Number-01 打破思维定势

这是个关于灵感的故事。

深夜下班,出地铁后往家走的路上,何中军突然萌生一个念头:既然把新方法纳入旧框架中收效甚微,为何不反过来,吸收传统方法的优点,借以弥补新方法的不足?

何中军豁然开朗。伴随思路转变,项目很快走出了困境。基于这个项目涉及的技术创新点,他申请了专利——一个基于神经网络模型的翻译方法及装置,继而斩获第二十届中国专利奖银奖。

何中军是百度自然语言处理部的一名杰出研发架构师。你可能对他的研究领域感到陌生,不过无论你使用百度搜索、跟小度音箱聊天,还是即将在明年央视冬奥会节目中看到的AI手语主播……都离不开自然语言处理技术——让计算机理解人类语言并与人类有效交流。

图片.jpg

  • 2018年,何中军在领域国际会议EMNLP现场

自然语言处理有个重要方向是机器翻译,亦即让计算机将一种语言翻译成另一种语言,这也是何中军在百度持续的研发方向。

据他介绍,百度翻译自2010年组建研发团队,2011年上线,主要用的是统计机器翻译。统计机器翻译发端于上世纪90年代,20多年间持续占据着业界主导地位。直到2014年前后,神经网络机器翻译这一全新模型横空出世。

恰逢统计方法遇到瓶颈,翻译出来的句子生硬,流利度比较差。新兴的神经网络方法采用了完全不同的建模方式,听上去是个理想的替代方案。

不过,神经网络模型复杂,需要耗费大量的计算资源,按照当时的技术,翻译一个句子可能需要十几秒时间。另外模型词表仅包含常用的几万个词语,难以覆盖互联网海量、多样的翻译请求,大规模落地的可行性还有待验证。

没有先例可以参照,百度的工程师们决心做第一个吃螃蟹的人。当年年底,他们正式打响神经网络翻译的上线之战。

发明创新基于一定的偶然性,然而对百度的研发人员而言,往往在立项之初就设立了必须完成的目标。目标是既定的,实现路径却有很多。想要找到最便捷可行的道路,往往需要研发人员打破思维定势。

奇妙之处在于,偶发的灵感,对他们来说似乎是必然事件。“虽然觉得很难,但当一件事长期在你脑海中转,总有一天会灵光突现。”何中军说。正是因为全身心的投入,才有了前述深夜的灵感浮现。

个人能力之外,受访的专家们还擅于借助团队的力量。张传明是来自于地图出行业务部的“发明之星”,早年他会和团队定期召开“茶话会”,互相分享前沿的论文或新知。“每个人的知识面不尽相同,大家凑一块天马行空、各抒己见,对拓宽彼此的视野和知识边界很有帮助。”

头脑风暴是个屡试不爽的方法,以解决那些令人头疼的问题。研发神经网络机器翻译过程中,团队成员经常因为“脑暴”而错过饭点。其中一次讨论,给他们接下来的研究指明了方向;他们紧接着一鼓作气,一步步完成了实施细节的推导。“当时已经下午三点多了,大家都很兴奋,便相约到附近餐馆吃了顿涮肉。”这是何中军颇为感念的幸福时光。

一项新的技术从实验室诞生到真正工业化应用,往往需要漫长的时间。以机器翻译为例,传统的统计机器翻译从提出到大规模应用,整整经历了15年。

2015年5月20日,在机器翻译团队成员的努力下,百度却用不到半年的时间,上线了全球首个互联网神经网络机器翻译系统。此后,国内外巨头互联网公司陆续跟进,机器翻译进入神经网络翻译时代。

-Number-02 一万小时定律

灵感并非一蹴而就,而是留给有准备的人。

《异类》一书写道:“一万小时的锤炼,是任何人从平凡变成世界级大师的必要条件。人们眼中的天才之所以卓越非凡,并非天资超人一等,而是付出了持续不断的努力。”灵感的出现看似突然,实际上源于研发人员知识或经验的深度积累。

地图出行业务部的主任架构师张传明,便是“深度积累”的践行者。百度内网上,记录着早年他从技术小白成长为高级研发工程师的传奇经历。

2010年加入百度时,百度地图的网络定位服务还在起步阶段。面对层出不穷的bug,张传明和另一实习生夜以继日地干了三个月,同时推进四五个项目,最终顺利将定位服务引上正轨。四年后,他带领定位组摘得百度最高奖。

张传明酷爱创新,工作第一年便开始申请专利,迄今申请或授权发明的专利有40余件。被任命为团队的专利接口人后,他还带动所在组,一跃成为部门内申请专利数量最多的团队。

张传明创新的的秘诀之一是深度体验产品。早年为了交付一套可靠的公交系统,他体验过北京所有的公交线路。以至于后来,随机考问两地的公交路线,他都能直接给出最佳方案。

2015年,团队遇到高架桥场景的定位难题。“城市里有很多高架桥,要判断具体位置很难,因为从平面坐标上看,桥上桥下处在同个点位。”为攻克这个难题,张传明复制了做公交系统时的办法。他断断续续花了一个多月,独自开车跑完上海所有涉及高架桥的路线,采集了数十万条数据。

那段时间他白天工作,晚上采集数据。“我准备了四部手机,上下高架桥时,都需要迅速在四部手机上同时做好标注。”据张传明回忆,因为没有必成的把握,做这项研发的过程疲惫且艰苦。

如何应对挑战?何中军的经验是多坚持一步:“从事探索性强的科研工作,多数时间暗无天日,因为做的实验大部分是失败的。而当一个人想要放弃,恰恰下一次实验很可能就成功了。”

每当遇到困难,何中军便会想起在校时师兄说过的话:“很多事情看起来很大,你不做的话,它就永远在那儿,但是你往前做一点儿,它就少一点儿。一旦上路,你就会不断接近目标。”

采集数据后,张传明成功分析出高架桥桥上和桥下的信号强弱规律。把这一规律量化成模型应用后,识别的准确度大幅度提升,他也据此申请了个人基于AI技术的第一个专利。

图片.jpg

  • 2020年,张传明入选上海市青年拔尖人才

“我想通过我自己的努力,让互联网地图的体验尽可能地好。”2009年求职时,被问及为何选择百度,张传明给出这个唯一理由。当时网页地图的主要功能只有地点搜索和路线规划,他认为还有很大的改进空间。

进一步追问才知,他对地图的感情由来已久。他的儿时梦想,便是“解决地图使用中各种各样的问题”。

转眼入职11年,张传明已干过百度地图绝大部分业务。他认为想要做好创新,首先得对所在的行业感兴趣:“感兴趣才会有敏感度,才能够持之以恒琢磨这个行业,才能不断抓住那些细微的变化,发现问题背后的真正奥秘所在。”

-Number- 03 从实际问题出发

一次内部分享会上,有同事问张传明:如何做一名靠谱的工程师?张传明认为关键是具备用户思维:“不单要看我们能做什么,还要考虑用户的预期。时刻问自己,当前存在哪些不符合预期的地方?如果你是用户,是否会因此放弃百度?”

张传明既是研发人员,也是百度地图的重度使用者。他发现随着地图的功能越来越智能,用户的要求也越来越苛刻。“产品使用户满意后,用户会产生更高的要求。更高的要求促使我们用更高的标准去提升产品体验。两者相互促进,使得用户对产品的体验和我们对技术的追求,都不断走向极致。”

这番描述,实际上契合了百度在内部就提升创新能力给出的方法论——解放思想,实事求是。所谓解放思想,不被束缚、不唯经验、不唯标签、不唯模式,打破了思维定势才能收获灵感;所谓实事求是,则要求一切从实际情况出发,来研究和解决问题。

对百度研发人员来说,创新不是为了标新立异,而源自技术问题或产品需求驱动。

入职已满10年的刘经拓特别认同这点。他主攻计算机视觉、人脸识别的算法研发,是国内使用深度学习进行视觉技术研究的先行者。就在他带领团队连续申请上百件专利那年,他完成了一项引发舆论热议的技术应用尝试——利用人脸识别技术帮助寻亲。

图片.jpg

  • 今年7月,刘经拓在全球互联网架构大会上做技术分享

这是2016年百度和民政部、寻亲平台“宝贝回家”合作发起的项目。如何让算法从海量照片中筛选出同一个人的两张面孔,在当时充满挑战。“寻亲者往往只能提供走失家人小时候的照片,这些照片通常还很模糊。而人长大后,面部特征会发生很大的变化。”刘经拓解释说。接到任务后,他组建了一个三人研发小队,却获得了整个部门的支持——同事们纷纷贡献出自己不同年龄段的照片,供他们做前期的实验研究。

最终,刘经拓带领团队攻克了大规模人脸数据训练的多重难关,有效解决了跨年龄人脸识别这一难题。隔年3月,百度帮助寻回已走失27年的贵州人付贵。这是百度AI寻人的第一个成功案例,开启了“AI人脸识别寻人”的新技术时代。

“AI就像一把锄头,应用领域是土地,好产品是种子。找到合适的土地和种子,好锄头才能发挥出更好的价值,获得更好的收成。”另一名中国专利技术审查专家杨叶辉说。

和刘经拓、张传明一样,杨叶辉也是通过校招进的百度。“我博士读的是模式识别与智能系统专业,也就是现在的人工智能。毕业时导师希望我留下做学术,也帮我规划了很有吸引力的发展路径。”后来杨叶辉还是决定到工业界,对他来说,“让技术走出实验室,做出能帮助到很多人的产品,是一件很有成就感的事情。”

如今杨叶辉在百度耕耘着智慧医疗这块“土地”。在研发智能眼底筛查算法的过程中,他深入到基层医院做技术支持,接触了大量有视力问题的老人。“一听说有筛查过来,他们都争先恐后,对健康的强烈渴望直接展现在你面前。有些老人眼睛由于没有及时获得筛查和治疗,几乎都看不见了。”

这些一线的筛查经历,让杨叶辉深受触动。公开信息显示,国内眼科临床医生缺口巨大,每5万人仅对应1.6个眼科医生。他希望借助技术解决医疗资源欠缺和不均衡的问题——让人工智能学习三甲医院医生的知识,继而为基层提供服务。

图片.jpg

  • 2020 年,杨叶辉(右二)等人开发的眼底筛查产品亮相全国眼科学术大会

大量的技术创新发生在实现这一目标的过程中,例如杨叶辉的其中一项专利,是通过模仿医生的诊疗路径,来解决糖尿病视网膜病变的早期判别问题。这项发明有助于在发病早期发现患者问题,让他们尽早获得干预治疗,避免不可逆的致盲。

“大胆假设,小心求证。”当问及如何创新,杨叶辉和刘经拓不约而同地提到这一路径。事实上,它和“解放思想,实事求是”的创新理念异曲同工。

攻克AI寻人技术之初,刘经拓采用的是业内流行的做法——对所有照片统一提取特定特征并进行比对。反复碰壁后,他提出反向假设:是否两张照片同时输入再去提取特征,才是可行的?循此路径,他带了几个研发同学进行了多次封闭开发,半年后终于取得突破。

“刚开始我们觉得,哪怕能找一个人回来,已经是非常大的进步了。”刘经拓说。截至目前,“百度AI寻人”已帮助1.2万个家庭团圆。

-Number- 04 长期主义

有别于其他受访专家,自动驾驶技术部万国伟的研发故事,有着更明显的“坚守”意味。

万国伟是被百度的技术氛围吸引来的。他2011年博士毕业于国防科技大学,加入百度前是一名军人。痴迷于自动驾驶的他看到百度重推这一领域,渴望参与一线实践,于是于2016年放弃编制,脱下了军装。

“身边人不理解,但我做决定时挺兴奋的。新兴领域,未知世界,每往前一步都很值得。”在部队时万国伟从事的是偏管理的工作,来百度后,他找回了读博期纯粹做科研的状态。

作为研发工程师,万国伟在百度接到的第一个任务是实现厘米级的定位目标。实现实时、高鲁棒的厘米级定位难度很大,他做好了打持久战的准备。

研发初期,百度给每个研发小组都配了一辆测试车。万国伟和另一名同事每周花两三天时间在车上,在隧道、林荫路、地下停车场等定位难度高的地方采集数据并验证定位模块。

如此埋头研发了近一年时间,万国伟和团队最终做成了一个自适应融合不同传感器的定位系统。它能够最大化各个传感器的优点,在各种复杂场景下实现厘米级定位。这项技术的突破,意味着百度无人车在定位技术领域达到国际领先的技术水准。相关学术论文发表在了机器人顶级会议ICRA 2018上,对应专利也获得了2018年中国专利奖银奖。

图片.jpg

  • 今年6月,万国伟在机器人顶会ICRA 2021 Apollo Workshop上做技术报告

今年万国伟获得百度最高奖的另一个研发项目——业界首个在L4全场景下达到厘米级的纯视觉自定位系统,同样经历了“从黑暗到黎明”的研发过程。“用时六七个月,前面四个月没有任何质的变化,最后两三个月才取得突破。”

万国伟说,自己之所以能够坚持下来,是因为百度提供了良好的创新环境:“给足了时间和空间,让我们得以静下心来解决业务的痛点问题,而不会急功近利。”

良好创新氛围的营造,源自百度对基础研究和前沿技术始终如一的投入与坚守。自布局AI开始,百度研发投入占营收比,已连续十年超过15%。另据近期发布的百度2021年第三季度财务报告,第三季度百度实现营收319亿元,研发费用支出62亿元,研发费用占营收比达19%。而将时间线拉长,今年以来百度研发投入累计176亿元,日均投入高达6400万元。

高投入带来了高回报。以自动驾驶为例,根据专利事务部提供数据,截止今年百度相关专利数已超3000件,位居中国第一。与此同时,百度也成为了全球最大的自动驾驶出行服务提供商。

百度一贯坚持的长期主义,是研发人员极为看重的一点。当一群“技术宅”汇聚百度,百度浓厚的技术氛围便应运而生。

“我们经常用技术名词来开玩笑,抽签决定谁请客时,我们会说,一定要有‘随机性足够好的算法’。去食堂吃饭,队伍排的太长,我们会吐槽这个系统‘吞吐量不行’。有活要分下去时,我们要求做到‘负载均衡’,而不能都压给某个人。”张传明说,他特别享受和同事之间的这种默契感。

百度在AI技术和业务上的全域布局,也促成了成熟而系统的技术创新生态。“拿地图来说,它除了提供C端的产品能力,同时也能在B端和G端落地。与此同时,地图AI化能力的构建,也离不开公司各基础技术部门的支持。”张传明认为。

百度地图早在2018年3月就确定了“新一代人工智能地图”的发展战略,陆续应用了语音、图像、自然语言处理、知识图谱等AI技术。放眼整个百度技术生态,各领域技术边界日趋模糊,互相取长补短、深度融合。

-Number- 05 技术进步没有终局

梳理几名受访专家的经历发现,他们所在的领域均受益于深度学习,实现了技术革新。

“视觉技术有着几十年的行业应用和发展历史,随着深度学习的出现,又迎来了新的黄金时代。”刘经拓说。2011年入职百度后,他见证了视觉技术从纯粹研发到不断解决新问题和新需求的渐进过程。

“一开始我们只做图片搜索、扫码识别的研究。后来我们发现,这一技术可以用来解决‘如何证明你是你本人’这一千古难题——过去只能靠线下操作,后来凭借视觉技术,人们在线就能够做身份验证了。”

2013年,百度成立了国内首家深度学习研究院,三年后推出中国首个自主研发的产业级深度学习框架“飞桨”,解决了AI基础技术领域卡脖子的问题。当时刘经拓所在团队并入研究院,视觉技术研究亦随之迈入“AI时代”。

“前一年我们不少项目还需要跟外面的研究机构合作,后一年我们就实现自主研发了。”刘经拓说。2013年,他主导研发了百度魔图APP上的“PK大咖”功能,用户上传照片后,便可找到与之相似的明星脸。得益于这个功能,百度魔图日均请求量迅速过亿,连续三周排名APP Store第一名,成为当年互联网的现象级产品。

图片.jpg

  • 今年4月,刘经拓获得百度知识产权特殊贡献奖

如今视觉技术的发展,早已超出刘经拓当初的想象——相关技术成果在百度智慧金融智慧城市、百度云、AI开放平台等重要产品中,均转化为核心产品功能。而放眼整个百度,无论是刘经拓研究的视觉技术,何中军研究的自然语言处理,还是张传明研究的导航定位技术……无一例外,应用在了百度全域的产品或业务场景当中。

与此同时,多名专家提到,AI时代目前只是开了个头,人类正在面对的,仍是一段漫长的探索未知的旅程。

“人跟机器交互,首先需要让机器理解人的想法。”何中军提到,机器的学习模式有时候缺乏可解释性;人在世界中不知不觉习得的一些常识,对机器而言可能很难理解,于是容易犯错。

“比如你问机器,青蛙腿上有几只眼睛?他可能会很自信地告诉你有两只。然而真相是,青蛙腿上是不长眼睛的。”

越是接近人类本能的东西,越难以让计算机去模拟。从这点看,受访专家认为技术的进步没有终局。“安慰之处在于,百度这里有兴趣相投的伙伴,有最前沿的技术,有全面的产品应用的需求。只要你技术好,不愁在百度没有用武之地。”

图片.jpg

  • 为了表彰做出突出贡献的专利发明人,百度将 1000 件高质量专利的名称、发明人镌刻在专利墙上

在百度重仓技术的背后,承载国家需求和时代使命的,便是以这些专家为代表的研发人员。他们不仅是当前AI技术革命的见证者,更是参与者和先行者,他们每一个闪光的想法、每一次热烈的讨论、敲下的每一行代码,都影响着未来的变局。

“时代为我们提供了丰富的创新源泉和技术应用场景,许多以前看似科幻的场景,都在我们的努力下变成现实。”何中军说,这份责任和使命感驱使他们不断向前。