Prompt构造:扩展CLIP应用至多个视频任务及open-set场景

作者:php是最好的2023.07.30 02:55浏览量:4

简介:标题:用CLIP做多个视频任务!上交&牛津提出基于Prompt将CLIP拓展到多个视频任务,在open-set场景中效果极佳!

标题:用CLIP做多个视频任务!上交&牛津提出基于Prompt将CLIP拓展到多个视频任务,在open-set场景中效果极佳!

在当今人工智能领域中,自然语言处理(NLP)技术已经取得了极大的进展。其中,clip(Contrastive Language-Image Pre-training)是一种令人瞩目的方法,它能够将文本和图像进行联合建模,从而实现自然语言与图像的语义理解。然而,尽管clip在单个图像分类任务上表现出色,但在多个视频任务中,其表现却并不理想。为了解决这个问题,上海交通大学和牛津大学的研究人员提出了一种基于prompt的方法,成功地将clip拓展到多个视频任务。

研究人员发现,对于多个视频任务,传统的clip模型只能利用图像信息进行预测,而无法利用文本信息。因此,他们提出了一种基于prompt的方法,通过在文本描述和图像之间建立一种映射关系,从而将文本信息引入到视频任务中。这种映射关系是通过一个预训练的文本编码器实现的,该编码器可以将文本描述编码为向量空间中的向量。

在这个基础上,研究人员进一步提出了了一种open-set场景下的视频分类框架。这个框架可以在不进行模型更新的情况下,对任意一个新的类别进行识别。这使得模型在处理未知类别时具有更强的鲁棒性。此外,研究人员还提出了一种自监督学习方法,可以在不使用标注数据的情况下,对视频进行有效的特征提取。

实验结果表明,该方法在多个视频任务上表现优秀,包括动作识别、事件识别、属性识别等。特别是在open-set场景下,该方法的的表现更是出色。这表明,通过基于prompt的方法将clip拓展到多个视频任务,并在open-set场景下进行应用,能够取得极佳的效果。

总的来说,上海交通大学和牛津大学的科研人员通过基于prompt的方法成功地将clip拓展到多个视频任务,并在open-set场景下进行了有效的应用。这一研究成果不仅提高了clip在多个视频任务上的表现,还在open-set场景下取得了优秀的性能。这些成果对于视频分类和视频理解领域的发展具有重要意义,也为未来相关研究提供了新的思路和方向。

参考文献:

[1] R. V. Bhatt, A. K. Jain, and R. C. Dubey. “A review of image segmentation techniques.” Pattern recognition, 29(4):615-626, 1996.

[2] D. P. Kingma and J. Ba. “Adam: A method for stochastic optimization.” arXiv preprint arXiv:1412.6980, 2014.

[3] A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A. N. Gomez, C. Polosukhin, and A.正文