飞桨对国内的开发者来说确实是最易学易用的,我的学生哪怕是零基础来学,看着中文的教程以及官网的实例学习起来都比较快,而且,百度的工程师们都能做到在社区及时回复,此外,硬件的落地非常到位,百度的同事来我们实验室现场安装、调试,更换合适的镜头、支架及电池,整个落地的支持是非常好的。
——孙钰
带着相机、拿着望远镜,在野外仔细地搜索和分辨野生动植物类,再背上一本厚重的工具书……这是生物学家在野外调查时常用的装备。
在生态学研究人员的眼里,动物随着季节更替、时间变化产生的一系列行为特征,以及生物生存的地理信息、环境信息等都具有非常大的研究价值。但在过去,这些数据只能依靠他们逐一记录。而这一过程却始终要伴随着沉重的装备、繁琐的操作以及长期的出差。
也正因为此,生态学的工作让很多年轻人望而却步。“目前,做动物分类的专业人员越来越少,但是公众想了解自然、了解生物的愿望却越来越强。”中国科学院动物研究所工程师林聪田无奈地说到。在经过了长期的生物多样性信息学研究后,他认为,目前单纯依靠人工完成动物分类困难重重。
有着同样困惑的还有北京林业大学智能感知实验室的负责人孙钰老师,他的一项重要研究项目就是去发现新的技术以替代繁重的人工劳动来预警红脂大小蠹爆发。
红脂大小蠹虫是森林的 “迷你杀手”, 它们以树为生,以树为食,在树中蛀出一个个坑道,最终将整个树蛀空。据统计,目前至少有 600 万株松树“命丧虫口”。
“然而想要消灭这种害虫着实不易,传统的诱捕方式要靠纯人工,森保专家走到森林里面,诱捕器把它拿下来,需要运用相关昆虫学专业知识,才能识别红脂大小蠹,记录下来,再带回去统计,工作量实在太大了。”孙钰介绍,因为每个诱捕器捕获的间距比较大,他们不得不把大量的精力花在路上。
无论是观察鸟类,还是治理病虫害,传统的研究方式在智能化的今天,确实显得费时又费力。
在经历生态研究现状的挣扎后,林聪田和孙钰都想到了百度大脑。而当 AI 遇上科研,确实也爆发出了不小的能量。
2017 年,林聪田开始利用百度大脑开放平台探索在物种多样性领域的开发与创新,研发出一个名为“生物记”的人工智能平台。
对于中科院的研究人员而言,“生物记”无疑是他们的福音。据介绍,当一位野外工作人员拍下一张照片时,他就能随时通过“生物记”去快速识别,并记录物种出现的时间、精确的位置信息及生存环境信息。而以前要完成这些信息的记录则需要背着几斤重而且操作繁琐的装备,着实是一门苦差事。
解放了科研人员后,林聪田开始尝试让对生态学
感兴趣的民众加入到环境观测中来,为了让人工智能获取更多数据完成学习,林聪田准备 5 月中旬开始面向公众推广“生物记”手机 App,鼓励鸟类爱好者将拍摄到的图片上传到 App 里。林聪田说,这样既能增加可以训练的数据,同时又能普及生物科学。
林聪田把 AI 做成了连接学者和公众的桥梁,而孙钰早些年使用 TensorFlow 的经历让其知道 AI 在森林里将大有所为,然而,在遇到本地化服务不足等问题后,他在 2018 年选择了百度深度学习平台飞桨(PaddlePaddle)。丰富的中文资料、高效的服务团队以及完善的硬件设施让其更加笃定飞桨对中国的开发者更加友好。
“飞桨对国内的开发者来说确实是最易学易用的,
我的学生哪怕是零基础来学,看着中文的教程以及官网的实例学习起来都比较快,而且,百度的工程师们都能做到在社区及时回复,此外,硬件的落地非常到位,百度的同事来我们实验室现场安装、调试,更换合适的镜头、支架及电池,整个落地的支持是非常好的。”孙钰这样赞赏飞桨。
事实上,要让 AI 的能力充分应用到生态学研究绝非易事。“中国动植物物种极为丰富,就拿鸟类而言,已经有记录的就有一千三到一千四左右,而且分类系统不同,分类观点也不一样,这样庞大的数量,想准确识别还是具有相当大的难度的”,林聪田回忆道,“当时国内甚至国外都尚未有健全的 AI 检测平台,准确率不高,鲁棒性也不好,这些都会导致应用的场景大大受限。”
难度固然大,但林聪田与百度的合作算得上顺利,在最初的试用中,百度大脑提供的解决方案在识别率上相比早期的知识向量机带来了不小提升。随后,随着数据的不断丰富,准确率也逐渐升高。如今,用户甚至无需上传高清图片,只要能看清鸟类的眼睛,就可以识别出最有可能的 5 种鸟类,这背后离不开来自中国科学院战略先导专项(A 类)“地球大数据科学工程”支持建设的物种多样性信息平台的数据支持,也离不开百度大脑强大的算力和算法。
相比中科院林聪田“摸着石头过河”似的合作,百度大脑与孙钰团队的合作显得更加顺风顺水。当然,在使用飞桨的过程中,孙钰和他的学生也遇到过训练不收敛及模型无法导出等问题,不过,百度的回应速度、沟通的效率获得了他们的认可。孙钰介绍,在 GitHub 上提问,百度的工程师一般能在一两天之内给我们回复。百度团队提供的服务也同样让孙钰印象深刻:“在硬件出现问题时,百度的工程师来和我们当面沟通过好几次,每次都会给出建设性的解答。”
因为百度大脑,无论是林聪田的“生物记”,还是孙钰的“虫数统计”项目组,生态学研究迎来的“智变”都开始显而易见:在全国各地的野生保护区,林聪田和他中科院的研究员们不用再背着沉重的装备三天两头地跑到深山野林拍照,也不用再繁琐地记录气候、温度等相关信息。而普通的野生鸟类爱好者可以随时抓拍遇到的新奇鸟种,上传到“生物记”后即可快速获取鸟类的相关信息,在了解鸟类知识的同时,也完善了资源库。
在林业大学的研究基地,孙钰和他的学生们也无需再花上一周的时间去部署诱捕器和收集数据,以前一周统计一次的数据现在已经可以实现一小时一次,而且准确率更是达到了 90% 以上。
在对生态学研究的智能化探索中,百度和他的合作伙伴们没有停下脚步。
实现了图像识别鸟类品种后,如何将声音识别的技术应用到“生物记”中成了林聪田团队的下一个目标。
“在使用 App 的时候,我们发现如果在野外,拿着手机,看完以后你还要低下头来再输入这个是什么鸟,在哪里,体验很不好。”林聪田表示:“我就想用语音的模式,我看见了什么,在哪个地方,这样能把它录下来,能转化成文字,就不用输入了。这时候我开始利用百度语音的功能。现在已经弄好了。”
一个能看、会听的“生物百科全书”正在无限地接近现实。