w88优德体育
科技新闻中心
专访腾讯多实验室商世东:咬咬牙也要跟上新版

发布人: w88优德体育 来源: w88优德体育平台娱乐 发布时间: 2020-08-12 17:30

  受疫情影响,远程协同办公软件市场爆发,腾讯会议上线两个月内日活超千万,在如此高并发流量冲击下,腾讯会议保持了清晰流畅的语音服务。近日,腾讯多实验室高级总监商世东接受LiveVideoStack专访,围绕腾讯会议及其背后的故事进行了分享。

  刚刚毕业的时候,我在摩托罗拉做音频方面的工作,一做就是将近十年的时间。2010年,我去了杜比实验室,算起来是国内入职杜比研发团队的第二个员工。当时负责整个杜比中国的工程团队,差不多有五六十个人的规模。后来我又去了杜比,再后来,也就是2019年1月,我加入了腾讯多实验室,在音频技术中心负责整个音频团队的建设、产品的技术线规划、技术的交互以及负责对多个产品,包括腾讯会议在内的端到端的音频体验,现在团队(音频)大概有20个人。

  对我来说,首先,在杜比这样的业界领先公司工作,我学习到了很多,国际化的视野、前瞻性的技术布局、完整的思维体系、团队建设等等,这些都是让我终身获益的东西。

  但离开杜比并不是一个非常困难的决定,这其中大、小的原因都有一些。我后来回顾了一下,最重要的原因还是在于杜比的主要业务是在传统领域,成长速度不尽人意。作为一家主要做技术授权业务的公司,它没有最终面对消费者的产品,相对而言公司规模也比较小,对整个生态的影响有限,很难有一个全面的把握。

  换一种说法,这其中有很多的东西是个人想要但是平台无法给与的,个人成长容易碰到天花板,想要向上突破的时候,公司已经不能给自己提供这样的平台了。就这方面而言的话,在腾讯,天花板几乎不存在,在这里,只要有能力、有潜力、有愿望,个人拥有持续不断的提升空间,并且可以在这个无限上升的空间里做到最好,这对我来说常重要的一点。

  在腾讯面临的用户数量,以前在杜比的时候是想都不敢想的。现在一天会有千万级DAU的产品,可以看到自己开发的产品在整个市场上遇到各种意想不到的困难、挑战、问题以及机会。

  现在我们很大一部分的精力放在腾讯会议上,通过种种技术对用户使用场景进行分析并通过统计数据的、分析,了解用户可能遇到的问题并快速加以解决。

  以前我们做视频会议,考虑会议中的语音质量提升和评估的出发点都是要求对标或者超越电话(典型的比如电话话筒终端),这个是典型的双人通话场景,但是现在我们也发现视频会议大量的场景都是围绕多人的、多地的联合办公场景。以前基于电信行业终端(电话话筒为主要语音设备)定义的完整的语音质量体系需要重新审视和演进来满足现在用户的需求。简单地说,会议软件是从模仿打电话的体验开始的,虽然从使用方式、使用场景、使用时间等等角度来看,多样性已经远远超过了电话。而且,仅仅俩人打电话是不够的,我们要一个小组打电话,光打电话还不够,还要分享视频、分享屏幕、图片和文档。从国际标准,比如ITU-T的演进线图来看,制订的通话标准,也不断的从双人通话向多人、跨地区的实时、强交互场景演进。

  会议当中关键的语音体验简单的来说,可以从三个维度来衡量,语音通信的可懂度,语音自然度/保真度和语音舒适度。从这三方面来说,在多人会议中面临的挑战明显要多于双人。

  比如多人通话采集设备的多样性。两个人的时候当然很好协调,人多了以后采集设备如何配置,以及采集的音质、采样率、比特率;在多人场景里面音频编解码的接入配置,到底是宽带还是超宽带,最简单的办法就是所有的配置都按照最好的来,但是这样对系统资源的占用是最高的。同时因为对系统资源的占用最高,会带来总体体验的下降。

  那么如何动态来在多种因素中平衡,多人语音通信的综合体验在三个维度上有最优的均衡,就变成一个很有挑战性的课题。

  同时,不同场景的网络也不一样。你的网络、我的网络,可能还有第三个、第四个人的网络,有的人使用网络、有的则是WiFi,有的是4G,带宽差异巨大,网络QoS也参差不齐,这时候如何有效的探测网络实际带宽,进而高效的进行流控管理,在多人场景下的复杂度远远高于双人。

  所以,综上所述,一旦开始考虑多人参会的因素,你会发现,在两人通话的情形下讨论的音质体验、QoS、QoE等等问题,现在要重新思考答案。这在国际上当前也是很热的领域,大家也都在探索答案。

  对于整个视频会议体验来说,或者对于用户体验来说,这不是一个单一的因素或者指标就可以决定的。之前我们有针对网络规划的常见QoS三个指标,丢包,抖动和延迟,这些东西都是必要条件,但是不是充分条件。决定一个用户体验的是很多方面的因素,比如从音频角度来说,从我们做音频的角度来说,用的最多的就是说到的三个维度:语音可懂度、自然度、舒适度。

  首先是听得懂你说的话,这是可懂度。如果音量很低,卡顿很严重,或者回声,或者很嘈杂,或者啸叫发生,那我基本就无法听了,那视频会议通话中反应比较多的卡顿来说,我们通过深度学习技术来解决网络丢包的问题。

  IP网络传输的时候常常会发生丢包的现象,以前处理丢包的技术比较简单,比如直接拿后面一帧填补一下或者前一帧内容直接复制。但是现在我们通过机器学习的方法,可以很准确的预测丢掉的那个音节的部分内容,在用户体验上则并没有。

  比如听机器人说话,那听得懂是没有问题的,但自然度方面就不会太好,这里面就涉及很多音质的东西,不仅是延迟、卡顿,抖动,这些是网络的指标。自然度对于用户来说更多是一个问题,我们用音色是否明亮、是否均衡、是否丰满,等等多项指标来衡量。当我们在语音处理中不可避免需要非线性处理的时候,我们就可以通过上述的指标来语音的自然度。

  在语音舒适度维度方面,我们的终极目标是视频会议语音通话的体验要尽可能的接近真实场景下的人和距1米时的通话体验,要达到这样的目标,我们还有很长的一段要走。目前可以想象到哪些困难我们需要克服,除了网络QoS三要素外,如何尽可能真实的仿真出所处的声学场景和对话形式,对于目标的达成至关重要,我们的技术演进线图也是朝着这个方向在努力。

  今年的需求(疫情)爆发了以后,我们整个团队一直加班加点,针对以前很多没有覆盖到的场景、没有碰到过的用户需求,陆陆续续开发了更多的技术和功能。比如,我们发现很多老师给学生上课时需要声音共享,而且这是一个非常刚性的需求。以前我们在办公室很少有声音共享,屏幕共享就可以了,所以我们在Windows(大部分老师都是用电脑进行教学直播互动)上提供了很多音频共享的功能。

  比如我们可以在学生把麦克风禁麦后还讲话的时候提醒学生,我们通过信号处理的技术,可以把学生讲话的声音有效的从背景声分离处理,从而实现关麦讲话提醒这个功能。

  另外,用户激增后,我们也看到了不同用户的终端设备差异性导致的产品行为的不一致。举个例子,用户开关麦克风的过程当中需要整个设备驱动进行重启。设备驱动重启的过程中,大部分设备都没有问题,但是某些设备确会导致关麦的时候扬声器无声,一秒两秒的无声用传统的质量评估手段是看不出来的,但对用户体验有很大的影响。所有这样的问题被发现后,快速迭代的能力就非常关键。

  在这个过程中,对产品的思考更多时候是一个问题,当有这么多人使用这款产品时,我们是带有感在工作的。我们更多是希望早一点把需求解决、把功能做出来,早一点优化用户的体验。

  所以大家常常是咬着牙,加班加点,周末也不休息。在声音共享这个功能上线的时候,我记得我们有一个同学一晚上调bug调到了两三点,我们当时想到底还要不要跟着这次产品更新一起发布新功能,还是说再挺一下,把这最后一个问题解决掉。

  因为产品的发布时间已经确定,如果这次赶不上,那意味着老师和学生们第二天上课时又没有声音,上课的效率和体验都会受到比很大的影响, 所以我们的同学那天就赶了一整个晚上,在这期间咖啡就没停过。

  最后,终于在凌晨5点多钟的时候,问题解决了,最后还做了全面的自测,确保没有问题,第二天我们真的就硬是赶上了新版本发布的这趟车。

  这个声音共享功能发布了以后,我们非常非常开心,就是那种很单纯的喜悦,希望上网课的老师们都赶紧升级到新版本,这样他们再给学生分享视频的时候,声音的分享就再也不成问题了。

  最近,Zoom是一个非常值得关注的对象。Zoom对我们来说,是云视频会议的先行者。因为它们在这个行业进入比较早,做得比较久,对用户需求、行为的理解也比较深刻,有很多值得我们学习的地方。其实我也蛮喜欢微软Teams的产品,它也有一些自己独到的地方。它从Skype时代开始演进,有比较多的积累。而且微软对底层技术有长期的投入,很多先进的思想一直在引领这个行业的进步。

  因为我们做视频会议的时间相对比较短,有这样一些先行者给我们先进的思,包括用户的支持、合作伙伴、硬件合作伙伴合作模式等等,都是值得借鉴的。

  从音频角度来说,海外用户跟国内用户的大体上一样,但也有一些不一样的地方。比如国内开会的时候,整个网络架构都是比较均匀的,尤其是我们看到北上广这些城市,他们本身的网络条件是不错的,延迟也处于比较好的状况。

  到了海外,我们的服务器部署不像在国内这么完善,我们需要知道哪些地方的服务器部署是不足的。海外也不需要像国内这样面面俱到的部署,很多地域人口密度很低,比如美国的用户可能比较集中在东西海岸,那么就需要针对东西海岸加强部署,在后台的调度也要加以注意。

  国内的话,我们的信息获得比较全面,流量高发的城市地区我们都有掌握,但海外这些需求和信息要如何获得,这就是一个问题。你怎么知道到底哪些城市在哪些时候会有一个峰值的需求?这必须要有一个对全网质量的评估和,这样才能近乎实时地知道用户的需求出现在什么地方,从而可以有针对性的、非常灵活快捷地进行相应的部署。

  从具体使用技术的角度来说,国内外的用户使用视频会议的习惯也有些区别,国外可能习PSTN电话的接入方式,国内则是IP来接入。国外很多用户倾向于使用固定电话或者移动电话接入体验,因为传统电话网络PSTN跟我们的IP网络是属于不同的运营商网络,他们的运营商网络到我们的网络里面要经过很多网关、由,针对这种情况怎么优化体验是我们要加以考虑的,这方面的开发技术比如说频谱扩展,比如PSTN专门的降噪,诸如此类的需求可以有针对性的加以开发。

  国内有非常不错的硬件制造商,深圳就有很多了。我们和这些硬件制造商合作的时候,怎么互相之间博采众长,产生一加一大于二的效果,这里面其实有很多合作的空间。腾讯会议在很多场景里面是要跟不同的合作伙伴联合打造一个比较好的会议体验的,而这些合作伙伴在他们的相关领域里面,像硬件领域、网络领域的未来发展是怎样的,有什么有前景的趋势,哪些变化在酝酿当中、又会什么时候发生,都是我们要持续关注的问题。比如,我们看到麦克风不断有新技术材料出来,那相关制造商的线规划是什么,某些技术难点突破了以后会对视频会议云通信的产品有怎样的影响,这些都需要你拥有很好的前瞻性。

  另外,我们一直比较关注相关的领域。比如,5G时代整个接入网络带宽上去了,那我们就思考当接入带宽不再成为瓶颈以后,可以在哪些用户体验上做进一步的优化。

  像之前提到的教学场景,老师们可能有些高品质的音频需要传输,不仅仅是语音,还有基于音乐的特定场景。比如老师给学生放一段视频,视频里面可能不仅仅有对话,还会有高品质的音乐。那么对于音乐来讲,面临的挑战是不一样的。音乐的内容特征、频谱、码率需求,从音质体验的角度来说比语音要求要高。

  这样的在3G、4G网络视频会议下由于带宽的、网络的拥塞可能不得不放弃,但在5G的时候就会提上日程,要研究如何在新的场景下满足用户更多的需求,从而去优化他们的体验。

  另外,基于AI的技术,我们也看到音频视频两者多模态可以更好的结合起来,能够大大往前走一步,给用户更好的综合体验。同时,计算能力上来以后,你会发现很多事情做起来受限于当时的设备,而现在慢慢都成为了可能,我们在思考怎么把这些事情一步一步做起来。我们现在和硬件厂商的很多合作,已经在紧锣密鼓地开展了。腾讯会议本身可以提供很好的音视频处理、传输、编解码技术,我们的硬件合作伙伴也有一些他们专有的硬件的特色功能。

  第一步,我们之间要先相互打通。直接打通第一步以后,我们要思考怎么把自己的技术和对方的优势结合,这里面有很多工作可以做。

  举个例子,用户的设备跟我们腾讯会议软件,不管是通过网络还是USB进行连接,以前在用户设备上受限于运算能力做不到的事情,现在就可以做到了。因为通常我们讲的会议电话这样的产品,它的运算能力、内存总是受限的,很多基于AI的算法做不到。

  但是腾讯会议的APP跑在我们通用的、运算能力强大的设备里面(像电脑)就不存在这样的,尤其是和云结合起来后。一旦和硬件厂商打通以后,双方找到彼此之间的配合点,以前做不到的事情现在都成为可能,典型的例子比如会议内容、整理会议纪要等等。

  像一些传统的视频会议方案提供商,它本身是一个闭环,它的解决方案里,软件硬件全都是它自己的,不存在运营多样化的挑战问题,因为每个链条它都自己把握,这样质量有。但是相对而言,他们的完整解决方案的价位也比较高,兼容性也会是很大的问题。

  腾讯会议的话,要跟所有设备商都可以接入,面临着可靠性、稳定性、安全性的挑战,因为不同的厂商的产品要在它的性能范围之内互相协同,无缝连接。

  在安全性方面,我不是专家,但从开发SDK的角度来说,我们对于用户本身的信息肯定是不做收集的。对于用户谈话,比如交流的具体内容,我们也不会做任何收集,只是用算法对这些内容的统计信息进行收集,包括通话过程当中的质量,比如是否失真、嘈杂、有卡顿等等,这些都是从技术方面统计的信息。

  因为我们需要对这些技术指标进行评估,比如我发现你那边频繁出现卡顿现象,那么我希望能够知道你在什么时候、为什么发生了卡顿,如果发生卡顿的原因是技术网络架构,或者是应用本身消耗了太多的CPU导致的,我们就可以更有针对性地进行优化,从而给予用户更好的体验。

  接下来我们要解决的问题,更多的会是更具挑战性的多方会议场景下面的问题。因为现在的用户场景非常多,多样化场景下,不同的场景里面用户对声音的需求是不一样的。这就说回到用户场景的问题,当下的场景相对以前确实有很大的变化。以前腾讯会议的用户场景没有(也没有想到)现在这么多。现在你可以在家里面、在办公室里面、小型会议室里面、大型会议室里面开会,甚至各种直播场景都是以前没有想过的。在各种场景里面,你的架构、相应的技术应该如何规划、配合,在不同的场景里侧重点又是什么,不同的人都有不一样的理解。

  我们这方面做得比较细,要根据用户不同的场景去考量。比如开信息传达的大会的场景,对于这种绝大部分时间都是信息单向传输的情况,延迟可能就不是那么重要了,重要的是声音的可懂度和自然度,要用户在长时间倾听的条件下,避免听觉疲劳和注意力分散。

  而在小规模小组讨论的场景下,大家都是是熟人,交互非常激烈,你一句我一句,这时候对实时交互的需求会非常强,需要很低的延时,除了对于可懂度和语音自然度的正常要求外,对于声音的舒适度要求尽可能模仿面对面的沟通,要求很高。我们会考虑在这样的场景下,需要哪些新技术,如何在多种限定条件下权衡,来达到一个最好的综合体验和度,。

  另外就是基于视频会议的主场景,还有哪些衍生的需求,比如会议内容、同声传译,以及和智能音箱的结合、如何通过语音助手来和交互……这些以前在传统的视频会议产品中见不到的功能,现在随着相关市场产品、技术的成熟,都可以进一步融合起来,在协同办公这样的一个大背景下,共同来提升效率。

  诸如此类,在当下和未来,我们都会碰到不一样的挑战,你要问哪个最重要,我没有办法回答,因为用户A和用户B的需求对我来说同样重要。同时,我们也会用数据来说话,数据告诉我们用户的需求在哪里,我们就去开发哪里;如果目前还没能满足这部分的需求,那我们就把它丢到map里,以后的每一天都要想办法去满足它。

  作为腾讯旗下顶尖的音视频通信和处理研发团队,腾讯多实验室专注于实时音视频通信、音视频编解码前沿算法研究、音视频国际标准、计算机视觉图像处理、端到端音视频质量评测。在实时音视频通信和处理技术、音视频国际标准等领域积累了完整的解决方案和领先的技术水平。

  特别提醒:本网内容转载自其他,目的在于传递更多信息,并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何或承诺,并请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容您的权益,请及时联系我们,本��将会在24小时内处理完毕。

  7月23日,由爱奇艺自制的古风清爽消暑剧《漂亮书生》正式独家上线,该剧由鞠婧祎、宋威龙、毕雯珺、...

  极光(Aurora Mobile, NASDAQ:JG)发布《“超职季”招聘行业报告—企业篇》,从就业市...

  对于Z世代新青年来说,追逐事业学业成就的同时,与重要的人一同享受闲暇时光获得家庭温暖,也是重要...

  随着国内AIOT技术和互联网技术的不断发展,以电视机为代表的智慧大屏产业从硬件制造业驱动逐步过渡到...

  7月21日-23日,第八届全球云计算大会·中国站(Cloud Connect China)在宁波隆重举行。本次大会...

  7月19日,Too Faced携手天猫超级品牌日,为广大粉丝合力奉献了一场美妆潮流界的 #TooFaced多面派对#,...

  7月22日,德意电器举办了一场别开生面的发布会。打破常规,德意“实在太有料”集成灶新品发...

  近日,全球最大的语音会议INTERSPEECH 2020公布了SdSV声纹识别比赛成绩,网易AI Lab 从众多国际队...

  爱立信官网消息显示,这家供应商已通过与电信签订一项新的多年期合作协议加强了合作关系,...

  7月22日晚,海信空调夏季全球发布会暨战略伙伴云峰会在青岛举行。发布会上,海信新风空调X系产品集...

  2020年7月22日,中国 – 软件定义智能表面交互领域的显通科技今天宣布,联想首款游戏...

  近日,国家发改委等13部门发布了《关于新业态新模式健康发展激活消费市场带动扩大就业意见》(以下简...

  前段时间,三星推出的一款Galaxy Z Flip折叠智能手机备受风靡。由于独特的设计和时尚的配色,一度成...

  昨晚7月22日,者电竞手机正式发布。全球首发骁龙865plus,双X轴线性马达、双全对称扬声器、90W...

  好未来(NYSE:TAL)旗下的主打产品,学而思网校,因为国内新冠疫情的原因,活跃用户量大增。根据极光...

  7月不减肥,8月徒伤悲。最近这一个月,体重却突然噌噌噌的涨上来了。于是下定决定,又要减肥了!锻炼...

  7月22日,第十三届中国商业信息化行业大会在湖南长沙国家会展中心((芒果馆))拉开帷幕。本届大会是继...

  2020中国(西安)电子商务博览会(简称“博览会”)将于10月15日-17日在西安国际会展中心举办...

w88优德体育,w88优德体育平台娱乐,w88优德体育网站,www.dohelps.com


上一篇:卓越客服:“封号户”退钱可以解封无门 下一篇:没有了







w88优德体育

CopyRight © 浙江 w88优德体育 科技有限公司 版权所有

w88优德体育,w88优德体育平台娱乐,w88优德体育网站,www.dohelps.com 网站地图

地址:浙江省绍兴市上虞区曹娥街 w88优德体育 大楼