观点

腾讯李松南:8K、沉浸式和AI是视频技术的3个关键词

  9月11日,2020腾讯数字生态大会视频通信云专场拉开帷幕。会上,腾讯多媒体实验室总监李松南发表了以《多媒体视频技术的前沿展望》为主题的演讲。他认为,8K、沉浸式和AI是视频技术领域的三大关键词,同时也代表了视频技术的发展方向,腾讯多媒体实验室将持续致力于相关技术的研究和标准建设,为腾讯云以及外部企业提供优质的视频技术服务。

  腾讯多媒体实验室是腾讯科技实验室矩阵之一,也是全球多媒体技术领先者,实验室工作主要包括标准制定、核心能力建设和产品落地三大板块。

  在标准制定方面,李松南指出,腾讯多媒体实验室一直积极参与国际、国内的视频编解码标准制定,以最新的H.266标准为例,实验室有超过100个提案被采纳,在国际范围内处于领先位置。

  在视频核心能力建设方面,腾讯多媒体实验室在视频编解码、处理、理解、沉浸式等很多方向上都取得了快速的进展。以沉浸式为例,去年多媒体实验室为“一部手机游云南“项目提供了VR360视频技术,这个项目结合白沙细乐 热美磋等多项云南非物质文化遗产内容,为云南旅游景点提供了精细化的导游导览方案。

  在产品落地方面,实验室今年在业界首次推出了沉浸式展厅的解决方案,在腾讯数字生态大会期间同步上线的‘云上展厅’就是基于此方案打造的, AR、VR、点云、云渲染等多项实验室自研的沉浸式技术藏于各展区之中。同时实验室现也积极合作腾讯云推出更多沉浸式通用产品与解决方案。

  关于多媒体视频技术的发展趋势,李松南表示,相信在5G、大数据 、云计算的加持下,AI 、沉浸式以及视频编解码技术会得到更进一步的发展。腾讯多媒体实验室会在这些领域持续深耕,努力为腾讯以及外部企业的各种To B、To C产品提供更好的视频技术服务。

  以下为李松南生演讲全文:

  大家好,我是来自腾讯多媒体实验室的视频技术总监李松南。很荣幸能代表实验室参加腾讯全球数字生态大会的视频通讯云专场。接下来我为大家介绍一下腾讯多媒体实验室的视频技术以及我个人对视频技术的展望。

  随着网络基础设施的不断建设、网速的加快及网络费用的下降,以及UGC、 PGC、短视频、长视频及直播等视频内容与形式的极大丰富,视频应用的场景越来越多,会议、电商、社交、娱乐、教育、医疗、智慧城市、视频几乎无处不在。

  随着科技的发展,视频技术也变得越来越成熟,在越来越多的应用场景中得到使用。视频技术有很多种,这里我给出了三个关键词,分别是8K、沉浸式和AI。它们是多媒体实验室在持续投入的方向,同时也是我个人认为比较关键的视频技术。

  下面我将围绕这三个关键词,对视频技术进行简要的回顾和展望。

  第一个关键词是 8K。提到8K,消费者首先想到的是大画面、高画质。但是企业主想到的则是高带宽、高存储等导致的高成本,所以 8K很早就被提出来,但是普及还需要下一代视频技术的支撑,其中最关键的技术之一就是视频编解码。

  视频编解码技术可以帮助我们用更低的带宽来提供更好的画质,每一代的编解码标准几乎都可以在画质不变的情况下将码率降低一半。在视频为王的今天,视频码率的降低对成本的节省是巨大的。腾讯多媒体实验室积极参与国际、国内的视频编解码标准的制定,以最新的H.266标准为例,我们有超过100个提案被采纳,在国际范围内处于一个领先的位置。

  每一代视频编码标准的普及都离不开视频编解码算法在架构层级、算法层级以及在指令层级的深度优化。这里列出的是实验室开发的视频编解码引擎支撑到的腾讯内部产品,包括腾讯会议、云游戏、手机QQ、全民K歌、视频云、腾讯视频等等。实验室在跟进标准、扩大腾讯国际影响力的同时也在切切实实的服务我们的产品,做到上得厅堂下得厨房。

  与8K相关的另外一个视频技术是视频处理。考虑到8K的内容有限,普及8K技术需要我们使用视频处理,将4K或者是更低分辨率的内容提升到8K的画质。除了分辨率以外,8K往往还伴随着帧率的提升、位深度的提升、色域度的扩展等等,这些都是视频处理技术的范畴,同时也是实验室从建立之初一直在坚守的视频技术方向。

  视频处理可以把4K变成8K,是否可以把老电影也搬上荧屏呢?腾讯影业投资的电影《追光万里》就使用了实验室的老片修复技术。我们在和腾讯视频云合作PaaS产品——画质重生;与腾讯影业合作SaaS产品——智慧影视。目标是把不同年代的影视剧重新搬上电视 ,甚至搬上银幕。

  第二个关键词是沉浸式。不论是8K还是沉浸式, 目标都是提升用户的体验。不同的是,8K是2D的、是被动的,而沉浸式是有交互的、是3DoF的、甚至是6DoF的。

  这里简单的解释一下,3DoF代表的是三自由度,英文全称是Three Degrees of Freedom。意思是你在点头、摇头和侧转头的时候可以看到不同的画面。这样的方式与人们观察日常世界的方式更为接近,因此也就更具有沉浸感。3DoF最典型的应用就是VR360视频,这页PPT中展示的是实验室在VR360视频方面的一些工作,其中包含了从采集 、压缩、传输到渲染端到端的每一个步骤。去年多媒体实验室为“一部手机游云南“项目提供了VR360视频技术,这个项目结合白沙细乐、热美磋等多项的云南非物质文化遗产内容,为云南旅游景点提供了精细化的导游导览方案。

  3DoF更进一步就是6DoF,在3DoF 也就是头部旋转的基础上,我们上下、左右、前后移动 ,也可以看到不同的内容。VR游戏是6DoF的 ,扩展现实也是6DoF的。6DoF中会用到很多三维重建的技术,比如点云重建、网格重建等等,这些技术可以用在比如虚拟看房 、虚拟看车等很多的场景中,为用户带来更加身临其境的产品体验。

  最后一个关键词是AI ,也就是人工智能。今天我们谈到人工智能的时候,往往指的就是深度学习技术。这幅图里给出了从媒体生产到云服务,再到媒体消费的一个典型的流程。其中涉及到了很多与视频技术相关的模块,几乎每一个模块都可以用到深度学习技术,包括前面提到的视频编解码 、视频处理、 AR /V、三维重建等等,目前都在逐步的AI化。

  这里我们给出了实验室在AI方向的几个应用场景,比如说在媒体生成方面,我们可以利用AI结合多模态,针对体育、游戏、影视等场景实现精彩视频的生成。以足球视频为例,我们可以把一场足球比赛按照不同的事件进行拆分,比如射门、角球、犯规等等,然后我们可以把我们认为精彩的镜头拼接在一起,再配合上一段动感的音乐,从一段长视频一键生成短视频。

  在云计算方面,实验室提供诸如视频标签、优质视频推荐及颜值预测等功能,对用户上传的海量视频进行打标,为视频推荐、视频搜索等产品提供技术支撑。用户每天会上传海量的UGC视频,为所有的UGC视频进行人工打标签是不太可能的,使用AI打标签就可以很大程度上降低人工打标的工作量,并降低成本。在媒体消费端,我们可以对用户的行为进行分析,实现诸如用户行为理解、人机交互这些基础功能,帮助我们更好的理解和服务消费者。在这段视频里展示的是用身体的动作来控制视频画面的内容,类似的动作分析技术,还可以帮助我们用手势与电视进行交互等等。

  相信在5G、大数据、云计算的加持下,AI 沉浸式以及视频编解码技术会得到更进一步的发展。腾讯多媒体实验室会在这些领域持续的深耕,努力为腾讯以及外部企业的各种To B、To C产品提供更好的视频技术服务。

  感谢各位的聆听 !

 

浏览过本文章的用户还浏览过
  • 贝壳入选《2019胡润全球独角兽榜》房地产科技领域第一名

    10月21日,胡润研究院在第六届世界互联网大会发布首份《2019胡润全球独角兽榜》,贝壳找房以超百亿美金估值,位列房地产科技领域全球第一名。 这是胡润研究院继六次发布中国独角兽季度指数后,首次发布全球独角兽榜。本次榜单估值计算的截止日期为2019年6月3 [详细]

  • 十代英特尔“芯”体验,雷神笔记本新品京东旗舰店送好礼

    就在本月,英特尔推出了全新第十代智能英特尔 酷睿 H系列移动处理器,该系列全新10代酷睿i7/i9,睿频频率均达到或高于5.0GHz,引爆游戏5GHz新时代,满足高端游戏玩家、性能发烧友等用户的极致移动性能需求。雷神游戏本也同步发售搭载最新一代处理器的全系新机,发 [详细]

  • 乐视控股公告再次打脸?债务纠纷越演越烈

    怕见的是怪,难躲的是债。深陷困境的乐视,债务问题也是一波未平一波又起,尤其是围绕乐视网与乐视控股之间债务纠纷亦是越演越烈。 1月19日晚间乐视网发布澄清公告及风险提示公告称,跃亭控制的关联公司对上市公司关联欠款余额为75.31亿元,并且否认此前甘薇 [详细]

  • LOGIBALL 采用IncrediBuild 大幅缩短了编译时间

    LOGIBALL是专门从事高质量导航地图的工程设计以及基于地理数据的应用程序的开发的公司,如他们较为出众的案例就是:针对商业用户进行优化的导航软件解决方案 LOGIBALL Business Navigator。 LOGIBALL的产品皆采用 Visual Studio C++ 和 Eclipse 进行开发,并拥 [详细]