简介:本文深入解读了美团基础研发平台视觉智能部与中科院计算所合作在T-PAMI 2023上发表的论文,介绍了Food2K大规模食品图像数据集及其配套的深度渐进式区域增强网络,展示了其在食品图像识别领域的创新与应用潜力。
在日常生活和研究中,食品图像识别作为一项重要的技术,广泛应用于食品营养理解、饮食管理以及跨模态食谱检索等多个领域。然而,现有的食品图像识别数据集普遍规模较小,难以支撑更复杂、更先进的食品计算模型的建立。为此,美团基础研发平台视觉智能部与中科院计算所携手,共同推出了Food2K这一大规模食品图像数据集,并配套提出了深度渐进式区域增强网络,为食品图像识别领域带来了革命性的突破。
Food2K数据集是双方合作的重要成果之一,该数据集包含1,036,564张食品图像和2,000类食品,覆盖了12个超类(如蔬菜、肉类、烧烤和油炸食品等)和26个子类别。与现有的数据集相比,Food2K在类别和图像数量上均超过其一个数量级,为食品图像识别研究提供了坚实的基础。
数据集特点:
为了充分利用Food2K数据集的优势,研究团队提出了深度渐进式区域增强网络(Progressive Region Enhancement Network, PRE-Net)。该网络主要由渐进式局部特征学习模块和区域特征增强模块组成,旨在共同学习多样化且互补的局部和全局特征。
网络结构:
特点与优势:
在Food2K数据集上进行的大量实验证明,深度渐进式区域增强网络在食品图像识别任务中表现出色,不仅提升了识别准确率,还改善了其他食品计算视觉任务的性能,如食品图像检索、跨模态菜谱-食品图像检索、食品检测和分割等。
实际应用:
Food2K数据集和深度渐进式区域增强网络的提出,为食品图像识别领域带来了新的机遇和挑战。未来,随着数据集的不断扩展和模型的不断优化,食品图像识别技术将在更多领域发挥重要作用,为人们的生活带来更多便利和乐趣。
数据集与代码下载:
感兴趣的读者可以从以下网址下载Food2K数据集、相关代码和模型:
http://123.57.42.89/FoodProject.html
希望本文能够为从事食品图像识别及相关领域研究的读者带来一些帮助和启发。