简介:本文介绍了发表在IEEE TPAMI 2023上的Food2K数据集及其相关研究成果,详细阐述了Food2K数据集的构建背景、特点以及基于此数据集提出的深度渐进式区域增强网络(PRENet),展示了该技术在食品图像识别领域的创新与应用。
随着物联网、社交网络和互联网的快速发展,食品图像数据呈爆炸式增长,为食品计算领域带来了新的机遇和挑战。食品图像识别作为食品计算的基本任务之一,在膳食选择、营养摄入、健康管理等方面发挥着重要作用。然而,现有的食品图像识别数据集大多规模较小,难以支撑复杂且先进的食品计算模型的发展。为此,科研团队在IEEE Transactions on Pattern Analysis and Machine Intelligence(TPAMI)2023上发表了题为《Large Scale Visual Food Recognition》的研究论文,提出了Food2K这一大规模食品图像数据集及其相关识别技术。
Food2K数据集是目前国际上规模最大的食品图像识别数据集,由中科院计算所与美团技术团队联合构建。该数据集包含超过100万张食品图像,覆盖了2000个不同的食品类别,涉及12个超类(如蔬菜、肉类、烧烤和油炸食品等)和26个子类别。与现有的数据集相比,Food2K在类别和图像数量上均超过其一个数量级,为食品图像识别领域的研究提供了丰富的数据资源。
Food2K数据集在构建过程中进行了严格的数据清理、迭代标注和多项专业检查,确保了数据的高质量。同时,该数据集涵盖了更多样化的视觉外观和模式,包含了不同食材组合、不同配饰、不同排列等导致的同一类别食品图像的视觉差异,使得食品图像识别任务更具挑战性。
为了应对Food2K数据集带来的挑战,研究团队提出了深度渐进式区域增强网络(PRENet)。PRENet主要由渐进式局部特征学习模块和区域特征增强模块组成,旨在共同学习多样化且互补的局部和全局特征。
在Food2K数据集上进行的大量实验证明了PRENet的有效性。实验结果表明,PRENet在食品图像识别任务上取得了显著的性能提升,并且具有更好的泛化能力。此外,在Food2K上训练的网络还能够改善其他食品计算视觉任务的性能,如食品图像检索、跨模态菜谱-食品图像检索、食品检测和分割等。
Food2K数据集及其相关识别技术的提出,为食品计算领域的研究提供了新的基准和工具。该数据集不仅可以用于食品图像识别任务的研究,还可以支撑更多食品计算新任务的探索。例如,在膳食营养评估、健康饮食推荐等方面,Food2K数据集及其训练模型都可以发挥重要作用。
未来,随着技术的不断进步和数据资源的不断丰富,食品图像识别技术有望在更多领域得到应用和推广。我们期待Food2K数据集及其相关研究成果能够持续推动食品计算领域的发展,为人类的健康和生活带来更多便利。
Food2K数据集的构建和PRENet的提出,是食品图像识别领域的一次重要突破。这一研究成果不仅丰富了食品计算领域的数据资源和技术手段,还为后续的研究和应用提供了有力支持。我们相信,在科研人员的共同努力下,食品图像识别技术将会取得更加辉煌的成就。