十大视频场景化应用工具重磅开源!(文末有惊喜)

作者:Amanda2022.01.19 11:58浏览量:305

简介:PaddleVideo正式发布!覆盖体育、教育、医疗、互联网多行业

随着短视频的快速发展以及安全管理的需求不断增多,视频领域的相关技术应用包括视频智能标签、智能教练、智能剪辑、智能安全管理、文本视频检索、视频精彩片段提取、视频智能封面正逐渐成为人们生活中的重要部分。

以视频相关业务为例,短视频网站希望能迅速给每个新作品打上标签并推送给合适的用户,剪辑人员希望从比赛视频中便捷地提取精彩比赛片段集锦,教练员希望系统分析运动员的动作并进行技术统计和分析,安全管理部门也希望能精准地进行视频内容审核比如实时识别违规行为,编辑人员希望通过文本检索相关的视频片段作为新闻素材,广告或推荐网站希望为视频生成更加美观的封面提升转化率。这些业务对传统的人工处理方式是很大的挑战。

视频理解是通过AI技术让机器理解视频内容,如今在短视频、推荐、搜索、广告,安全管理等领域有着广泛的应用和研究价值,像动作定位与识别、视频打标签、文本视频检索、视频内容分析之类的任务都可以通过视频理解技术搞定。

PaddleVideo是百度自主研发的产业级深度学习开源开放平台飞桨的视频开发套件,包含视频领域众多模型算法和产业案例,本次开源主要升级点如下:

  • 发布10个视频领域产业级应用案例,涵盖体育、互联网、医疗、媒体和安全等行业。
  • 首次开源5个冠军/顶会/产业级算法,包含视频-文本学习、视频分割、深度估计、视频-文本检索、动作识别/视频分类等技术方向。
  • 配套丰富的文档和教程,更有直播课程和用户交流群,可以与百度资深研发工程师一起讨论交流。
    十大视频场景化应用

    十大视频场景化应用工具详解工具详解

    飞桨PaddleVideo基于体育行业中足球/篮球/乒乓球/花样滑冰等场景,开源出一套通用的体育类动作识别框架;针对互联网和媒体场景开源了基于知识增强的大规模多模态分类打标签、智能剪辑和视频拆条等解决方案;针对安全、教育、医疗等场景开源了多种检测识别案例。百度智能云结合飞桨深度学习技术也形成了一系列深度打磨的产业级多场景动作识别、视频智能分析和生产以及医疗分析等解决方案。

    1. 足球场景: 开源FootballAction精彩片段智能剪辑解决方案

    FootballAction基于行为识别PP-TSM模型、视频动作定位BMN模型和序列模型AttentionLSTM组合得到,不仅能准确识别出动作的类型,而且能精确定位出该动作发生的起止时间。目前能识别的动作类别有8个,包含:背景、进球、角球、任意球、黄牌、红牌、换人、界外球。准确率超过90%。

    2. 篮球场景:开源BasketballAction精彩片段智能剪辑解决方案

    篮球案例BasketballAction整体框架与FootballAction类似,共包含7个动作类别,分别为:背景、进球-三分球、进球-两分球、进球-扣篮、罚球、跳球。准确率超过90%。

    3. 乒乓球场景:开源大规模数据训练的动作分类模型

    在百度Create 2021(百度AI开发者大会)上,PaddleVideo联合北京大学一同发布的乒乓球动作进行识别模型,基于超过500G的比赛视频构建了标准的训练数据集,标签涵盖发球、拉、摆短等8个大类动作。其中起止回合准确率达到了97%以上,动作识别也达到了80%以上。

    4. 花样滑冰动作识别

    使用姿态估计算法提取关节点数据,最后将关节点数据输入时空图卷积网络ST-GCN模型中进行动作分类,可以实现30种动作的分类。飞桨联合CCF(中国计算机学会)举办了花样滑冰动作识别大赛,吸引了300家高校与200家企业超过3800人参赛,冠军方案比基线方案精度提升了12个点,比赛top3方案已经开源。

    5. 知识增强的视频大规模/多模态分类打标签

    在视频内容分析方向,飞桨开源了基础的VideoTag和多模态的MultimodalVideoTag。VideoTag支持3000个源于产业实践的实用标签,具有良好的泛化能力,非常适用于国内大规模短视频分类场景的应用,标签准确率达到89%。
    MultimodalVideoTag模型基于真实短视频业务数据,融合文本、视频图像、音频三种模态进行视频多模标签分类,相比纯视频图像特征,能显著提升高层语义标签效果。模型提供一级标签25个,二级标签200+个,标签准确率超过85%。

    6. 视频内容智能生产

    在视频智能生产方向,主要目标是辅助内容创作者对视频进行二次编辑。飞桨开源了基于PP-TSM的视频质量分析模型,可以实现新闻视频拆条和视频智能封面两大生产应用解决方案,其中新闻拆条是广电媒体行业的编辑们的重要素材来源;智能封面在直播、互娱等泛互联网行业的点击率和推荐效果方面发挥重要作用。

    7. 视频交互式标注工具开源

    飞桨开源了基于MA-Net的交互式视频分割(interactive VOS)工具,提供少量的人工监督信号来实现较好的分割结果,可以仅靠标注简单几帧完成全视频标注,之后可通过多次和视频交互而不断提升视频分割质量,直至对分割质量满意。

    8. 基于时空动作检测单模型实现87类通用行为识别

    飞桨基于时空动作检测模型实现了识别多种人类行为的方案,利用视频多帧时序信息解决传统检测单帧效果差的问题,从数据处理、模型训练、模型测试到模型推理,可以实现AVA数据集中80个动作和自研的7个异常行为(挥棍、打架、踢东西、追逐、争吵、快速奔跑、摔倒)的识别。模型的效果远超目标检测方案。

    9. 无人机检测

    禁飞领域无人机检测有如下挑战:
    (1)无人机目标微小,观测困难。
    (2)无人机移动速度多变。
    (3)无人机飞行环境复杂,可能被建筑、树木遮挡。
    针对以上挑战,飞桨开源了无人机检测模型,以实现在众多复杂环境中对无人机进行检测。

    10.医疗影像的分类鉴别

    基于公开的3D-MRI脑影像数据库,浙江大学医学院附属第二医院和百度研究院开源了帕金森3D-MRI脑影像的分类鉴别项目,数据集包括neurocon, taowu, PPMI和OASIS-1等公开数据集,囊括帕金森患者(PD)与正常(Con)共378个case。提供2D及3D基线模型和4种分类模型以及3D-MRI 脑影像的预训练模型。其中PP-TSN和PP-TSM取得了超过91%的准确度和超过97.5%的AUC,而TimeSformer实现了最高准确度也超过92.3%。

    精彩课程预告

    1.17~1.21日每晚20:15~21:30,飞桨联合百度智能云、百度研究院数十位高工为大家带来直播讲解,剖析行业痛点问题,深入解读体育、互联网、医疗、媒体等行业应用案例及产业级视频技术方案,并带来手把手项目实战。扫码或点击”阅读原文”进行报名,我们直播间不见不散~

课程报名链接:https://paddleqiyeban.wjx.cn/vj/QIValIZ.aspx?udsid=431053