换个角度看你最爱的篮球赛:24秒可以组织一次进攻,也可以剪出一支视频

以往,由一个资深编辑剪出一支球星的精彩回顾视频,要花费起码数个小时对历史视频素材库资源进行回忆和搜索才能剪出几分钟的高光时刻。但借助“IBM AI Vision视觉大脑“,一支超燃的集锦成片只用20秒就完成了。

NBA 2017-18赛季总决赛,就在最后毫无悬念的4分钟垃圾时间中提前结束了。勇士以108-85的绝对优势守住了最后的胜利,大比分4-0横扫骑士。

在这场基本被认定是勇士队"稳稳的幸福"的比赛中,最大的悬念似乎只剩下MVP的归属。最终,"死神"杜兰特以此战中三双的完美数据表现,再次举起了FMVP奖杯。就在那一刻,关于他11年的NBA经历,从赛场新秀到王朝巨星,所有经典的记忆瞬间一幕一幕被唤醒。

2007-2018杜兰特成长经历回顾(转自腾讯视频)

上面这支视频几乎是在颁奖仪式落幕的第一时间就剪辑完成并在腾讯体育中同步播放。更令人意外的是,背后参与作品剪辑的不只是某个人,还有人工智能视觉技术。

这一技术所基于是IBM中国研究院开发的视频深度学习平台,名为"IBM AI Vision 视觉大脑"。就在比赛直播的2个多小时过程中,它已经帮助视频编辑完成了所有识别和剪切工作,以保证赛事结束的第一时间就能为观众呈现最精彩的燃情瞬间。

天下武功,唯快不破:通过小数据学习就能让机器看懂篮球

天下武功,唯快不破。篮球比赛中需要迅速抢断、高速运球、快速上篮……成败几乎都在瞬间。而体育赛事内容的传播也是如此,再精彩的比赛,过了一个月,能留在记忆中的也不过是完整赛程的千分之一。对于观众而言,当下的激情,一定要在当下见证,也要在当下释放。

于是,近几年来能够随时随地提供观赛体验的线上直播平台成了越来越多球迷的青睐。而能在赛后第一时间重温所有热血沸腾的时刻,更是一种"小确幸"。

在国内,腾讯体育从2015年开始就一直是NBA中国数字媒体的独家官方合作伙伴,三年来不仅提供赛事的直播服务,也在不断摸索提升用户体验的方式。这次,腾讯体育选择与IBM合作,通过人工智能技术剪辑体育赛事视频,在中国市场还是第一次尝试。以观众的体验为出发点实时输出视频集锦,及时点燃了第二波情绪,也让整个赛事直播变得更加激动人心。

据了解,这样一支视频以往由一个资深编辑来处理,要花费起码数个小时对历史视频素材库资源进行回忆和搜索才能剪出几分钟的高光时刻。但借助"IBM AI Vision视觉大脑", 这支超燃的集锦成片只用20秒就完成了。

当然,"场上一分钟台下十年功",计算机要如此高效又出色地完成工作,基本前提是先让它看懂篮球。

其实这并不容易,对于计算机视觉来说,篮球运动分析是所有体育赛事中最难也是最复杂的。因为它是一项高速运动,相对而言场地小、人多,十个大高个挤在一起常常会出现相互遮挡的情况。与此同时,多摄像头的存在,以及镜头的频繁移动也会干扰计算机的判断。

但即使是面对这样的难题,IBM AI Vision 借助"多模态视觉理解技术",通过少量视频数据的学习,在一个多月内就完成了训练和建模。使得计算机不仅能够通过人与物体的关系看懂篮球、了解规则,还可以对球员的人脸、体型、动作,进行"像素级"的跟踪和识别,捕捉复杂的动作,判断得分失误。

换个角度看你最爱的篮球赛:24秒可以组织一次进攻,也可以剪出一支视频 IBM副总裁,大中华区首席技术官,中国研究院院长沈晓卫(后排右一)及IBM杰出工程师,IBM中国研究院AI系统研究总监林咏华(后排右三)在和团队探讨研究AI Vision

比如在有遮挡的动作中判断谁是主攻手,他的投篮动作是否成功等等。即便是在球员剃掉满脸大胡子之后,也能通过球衣号码和体型动作等信息快速把他识别出来。

其中,供计算机进行训练的所谓"少量数据"到底有多少?据IBM杰出工程师,IBM中国研究院AI系统研究总监林咏华介绍,此次与腾讯体育的合作中,实现静态图像的识别只用到数百数量级的数据,而对于动态图像的捕捉和识别,也只用到了数千级别的数据进行训练。

之所以能够达到这样的效果,背后倚赖的是迁移学习和数据增强方法。具体来说,通过IBM既有的基础模型进行迁移学习,就能够减少机器学习过程中的数据需求量,缩短训练时间。另一方面,通过对画面的垂直旋转、水平旋转,以及加噪、光线调整等方式进行数据增强,则可以大大减少数据标注的时间。对很多企业来说,以小数据就能完成机器学习的场景应用,这将是极大的福音。

通过自动化机器学习,20秒就能输出贴合用户需求的视频成片

完成了建模和训练,也就完成了AI视频剪辑的第一步。

在这个过程中,IBM将完整的人工智能技术封装到了视频深度学习平台中,可以帮助企业个性化定制学习平台,做到让企业用户"开箱即用"。就这次与腾讯体育的合作来说,这意味着腾讯体育的人员不需要任何深度学习知识,只要负责将历史视频数据导入到平台中,再根据不同维度进行简单分类,就可以一键启动神经网络训练。

而针对用户定义的训练数据和任务需求,计算机还会自动帮助他选择最合适的算法、网络结构,甚至自动优化几十个、上百个超参数,从而进行最优化的神经网络训练。

在这些工作基础上,就可以进入下一步--让"AI剪辑师"正式上岗工作,对导入的每一帧视频进行多通道分析,并打上标签。包括将人物、运动轨迹、声音等等这样的非结构化数据提取为结构化数据,由数据库进行实时管理,让所有画面都变得可检索。

来自IBM中国研究院的"IBM AI Vision视觉大脑"(转自腾讯视频)

以往,数据标注常常会占据企业机器学习应用的绝大部分时间,为此,"IBM AI Vision视觉大脑"中开发了半自动化数据标注技术以解决这一问题。

举个例子,在篮球比赛的视频画面中,如果通过人工标注,就需要在每一帧停下来,告诉计算机哪个是球、哪个是球员、哪个是篮框,非常耗时耗力。而通过半自动化标注技术,计算机会在人工标注阶段进行学习,了解你想要标注的信息,然后对剩下的数据全部进行自动标注处理。最后,用户需要做的,仅仅是检查自动标注的结果并进行微调。据统计,通过这个功能,至少可以帮助企业减少10-50倍的人力。

除此之外,"AI剪辑师"还会根据不同主题,如灵动、霸气、坚定、精准、强硬等,对视频素材片段的匹配程度生成综合评价和模版,以供选用。而接下来,根据设置好的主角、主题框架和故事线等场景,计算机就会自动筛选出盖帽、扣篮、远投、抢断等合适的素材进行拼接,最后一步只需要编辑加上音乐和过场等特效即可在20秒内输出成片。

值得一提的是,"IBM AI Vision视觉大脑"上有强大的深度学习加速引擎。该引擎可以针对数据中心服务器机群的能力,瞬间完成并行化AI服务部署,并通过容器云GPU共享技术,提升机群运行视频深度学习的能力。此外,对于一些需要把AI视频分析能力部署到边缘设备的场景,深度学习加速引擎还可以自动把训练好的模型转换成能够运行在嵌入式设备的代码(如FPGA)。把企业需要几个月才能在嵌入式设备上编写优化代码的时间,直接缩短到15分钟,极大地加快开发生产效率。

只要有海量视频数据,就有AI Vision的施展空间

除了杜兰特的这支FMVP回顾视频,"IBM AI Vision视觉大脑"在历时9天的NBA总决赛期间还剪出了针对七位呼声最高的球星的45秒视频集锦,比如萌神库里,和这赛季呼声最高的小皇帝詹姆斯。

从数据上看,近7000万用户关注并参与了球星票选。IBM携手腾讯体育,利用AI科技为1.43亿篮球迷创新观赛体验。

库里11年精彩回顾 (转自腾讯视频)

和过去从编辑视角向观众单项输出内容不同,这几个视频均是根据腾讯体育社区球迷投票出来的关键词而制作的。无论是库里"精准"的远投、詹姆斯所有"霸气"的扣篮、盖帽,还是杜兰特无孔不入的"杀气"瞬间,计算机都可以轻松从21亿秒级的视频素材中进行识别和调取,甚至还可以在关键球上做技术的拆解标注和解析。如果单靠人工来完成,不仅是巨大的工作量,同时由于记忆的局限性和个人偏好的不同,最终呈现的素材也可能并不完整和全面。

林咏华透露,这只是IBM中国研究院与腾讯体育的第一步合作。接下来,通过对所有球员历史视频数据的处理,只要计算力足够,球迷甚至可以根据自己的偏好定制想看的视频片段集锦,哪怕是非常冷门的的球员,球迷也可以在十几二十秒内得到与他的"独家记忆"。

其实,这样炫酷的操作在IBM早有案例。过去的二十多年里,IBM一直与Masters合作为全球高尔夫球迷提供数字观赛体验。与此次和腾讯体育的合作类似,通过Watson对Masters 过去所有直播活动中视频的学习,可以根据观众的欢呼声、解说员的情绪,以及球员的姿势对比赛中的亮点进行评分并加入到索引之中,以便 Masters 的编辑团队更轻松地完成"My Moments(精彩瞬间)"的视频制作流程。同时,借助 My Moments(精彩瞬间)功能,球迷已经可以选择自己喜欢的球员,然后根据偏好量身定制精彩集锦。听起来,球迷将成为最大的收益方。

而在此基础上,针对赛事直播,未来"IBM AI Vision视觉大脑"还会有更多应用场景。譬如,当评论员解说某个历史场景时,就可以实时提供相关画面的呈现和数据分析,给观众带来更优越的体验。

对于腾讯体育而言,希望借此盘活海量视频数据,让每一分每一秒的数据价值都被最大化利用。同时,机器能力的加入,也为人眼提供了更加精准智能的判断分析和辅助决策,使得编辑能从重复的工作中解放出来,把大部分时间和精力投入更具艺术和个性化的作品创作中。

IBM副总裁,大中华区首席技术官,中国研究院院长沈晓卫表示:"IBM作为一家科技公司,拥有多元化的高精尖人才,持续发力人工智能领域。IBM中国研究院致力于人工智能技术的创新与应用,包括利用人工智能视觉、听觉、自然语言理解、对话交互等技术创新赋能专业人士,助力行业用户在多模态数据中创造价值,并实现更高效的行业创新和产业升级。"

为此,放眼整个体育产业,"IBM AI Vision视觉大脑"可以做的事还有很多。比如充当电竞比赛复盘的剪辑师、制造生产线中的质检员,甚至是独居老人的看护人员、自动驾驶的"超级眼"等等。可以说,未来只要有视频数据的地方,就会有它的施展空间。

来源:至顶网软件频道

0赞

好文章,需要你的鼓励

2018

07/03

17:59

分享

点赞

邮件订阅
白皮书