中国智慧显示系统产业应用博览会

【峰声】思科黄乐：融创新纳智慧思科智能协作策略

2018年7月27日，周五，由深圳市商用显示系统产业促进会联合北京奥维云网大数据科技股份有限公司主办、深圳融华智显产业服务有限公司承办的2018中国智慧会议产业（夏季）高峰论坛在深圳麒麟山庄隆重召开。本次论坛共吸引500多位智慧会议产业嘉宾代表出席，共话会议产业的发展大计。
高峰论坛上，思科（Cisco）大中华区协作事业部架构师黄乐经理以《融创新纳智慧，思科智能协作策略》为题为参会嘉宾分享了思科在全球范围内的智慧会议事业以及智慧AI在国内一些具体的场景应用。

思科（Cisco）黄乐经理正在演讲
以下是黄乐演讲实录：
文中附完整PPT
大家好，我是思科在南区负责协作的技术顾问黄乐，基本南区五省协作相关的工作都由我来负责，谢谢商显产促会给我这样一次机会来分享思科在全球范围内的一些事业和在国内一些场景的结合。

协作对于社会而言非常重要，其中和本次论坛相关的一点是，智慧会议将会迎来一个大爆发的时期，今天视源周总讲的「云、网、端」的架构，代表了企业未来的发展方向。
我的演讲题目是《融创新纳智慧，思科智能协作策略》，主要与智慧会议中的协作有关。为什么讲这个？现在智慧是一个非常重要和火爆的主题，基本不讲AI和智慧，在IT行业就已经落伍了。
思科在协作领域已经发展非常多，大家听到「思科」这个名字可能就想到网络，但事实上思科不只是网络，我们在基于网络的应用上也做了很多开发。

「协作」是一个很大的话题，根据思科的企业管理与运营经验，我们为「协作」下了这样的定义：协作是一堆人在一起为同一目标进行工作。
商业级的协作，有几个主要元素，最基础的是技术，没有技术很多事情就没有办法完成，所以必须有技术积累。真正的协作是基于人、基于公司，人与人之间有差异，公司与公司之间也会有差异。真正商业级协作，必须要融入到企业的流程和文化中，这才是一个真正的商业级协作。基于这样的理念，思科做了一些规划。

思科是一个非常有规划的公司，在协作方面做了相应的规划，在Gartner的魔力四象限中，思科一直处于领导者象限中。思科有一个非常远大的Vision。

上面这张图，是思科2005年产品部做的，除了加上中文，至今一字未改。
当时，思科决定进入协作市场后，就为自己做了一个规划，协作架构要分五步来走。
第一阶段，先做产品覆盖，也就是技术积累。因为通讯在协作里是讲人与人的沟通，通讯手段需要非常丰富，不会只有一个，有视频的、语音的、文字的、内容的，这些都需要不同的技术手段去积累才能达到，因为人与人的沟通应该是多种方式的。所以2005年时，思科就开始做产品覆盖。
第二阶段，是产品整合。这么多的技术手段需要融合、简化，所以第二个目标就是把产品简化，也就是如何让更多人更简便地把它使用起来。
第三阶段，就是产品进化。思科有了更多工具之后就要考虑怎么让它更加无缝地工作在一起，随时可以互相调用，作为一个完整的平台出现，而不是一个孤岛。
第四阶段，是云。大概设定是2015年的事情。当有了这么多好的前端之后，需要一个完整的云平台去延伸，因为这种协作不会只发生在一个企业内，要跨出去，与B2B、B2C连接起来，这需要很强的移动性，或者说要有非常弹性的网络以及平台支持。
第五阶段，是数字化。人与物品等许多东西，在网络里要出现，首先要用数字信号来代替。不然就无法进入网络，无法互联，所以必须要有数字化的阶段。有了数字化阶段之后，就要做开放接口。
三大元素，最终要融入到企业文化和流程中。没有相应的开发，没有API接口，就没有办法融入，所以必须要数字化。思科2005年就已经把这个规划做完了，而且目前来看，时间点跟实际发生的事情也是非常贴近。

这些年，思科在决定了这个规划后，就一直在按照规划不断完善自己，包括自主研发和通过并购。这几年，思科通过并购实现了快速发展，但并购不是随便的，都是按照规划一步步完成。2003年，思科发布了IP电话电解方案；2005年，开始做IP电话的整合；2006年，发布CTS网真解决方案；2007年，收购Webex，介入网络会议/云端会议/数据会议的产品领域；2008年，收购Jabber，进入个人通信领域；2009年，收购TANDBERG，完成了整个产品覆盖的过程，包括视频、语音、文字、内容、交互和和技术积累，都完成了。
接下来有两年时间，思科什么新产品都没有做，两年时间把各种技术手段融合在同一平台里，所以直到2013年才开始有新的产品出来。
思科的步伐并没有停下，2015年，收购了原来从思科分出去的小企业——acano，去做会议平台，为开放式和数字化做准备；同时，也收购了TROPO——做API的厂商，为数字化阶段做好准备；2017年，收购boardsoft，这一系列的动作都是按照思科的规划，一步步去完成，把技术积累融入到企业流程和文化中，做了一个完整的准备。这是思科发展到今天，现阶段的状态。
今天的主题是智慧会议。有了全面技术积累之后，思科在后面就会有一个新的规划，因为现在经历了云、数字化，接下来就是AI人工智能发展，思科在这方面也有自己的规划和展望。

思科认为，智慧、AI跟会议之间会经历这五个阶段。
最简单的语音指令，已经完全实现了，比如语音查天气、开关灯，等等；
第二阶段就是自然语言的识别，机器能够自己去识别、理解意思，自己表达；
第三阶段，专业领域语义识别，不仅可以完整地知道参会者讲的内容，还能完整地理解语句真正的意思。
前面这三步其实就是用AI助手帮助人去做这些事情。第四和第五这两个阶段，就会有改变，需要AI助手主动介入来帮助人们去做。
第四阶段是AI智能团队成员，不仅帮助用户，也作为一个团队成员，帮与会者准备内容。开会前，就知道你需要调查哪些内容，通过大数据分析可以得到相应的结论，预先准备好。可以帮你准备相关的会议纪要，会后有哪些任务安排等。
到第五阶段，它会作为团队成员出现，帮你去组织这个会议。比如你现在想要办一件事情，要达成这个任务需要什么资源、这些资源在谁手上、需要哪些人与会等，都提前由AI帮你安排好。你只要有想法，AI就能帮你完成组织工作。
思科认为，AI智慧会议旅程，是分这五个阶段完成的，这要一步一步走，有些已经实现了，有些会在未来实现。
无论如何，AI的介入是肯定会出现的，而且这个介入围绕着一个很重要的东西，协作最关键的，还是人作为主体，会议的主体还是人。会议里面最重要的，是用户的使用体验，它是永远放在第一位的。有AI帮忙，第一步要做的是改变会议环境，改变会议室，这样才能提升会议体验。
这个场景大家都非常熟悉了，今天的会议室就长这个样子，我们用了很多年，里面有好多东西，因为我们在会议室里要做很多事情，比如说开视频会议要有终端，要分享PPT要做投影，要声音扩声就要有音箱，要有麦克风拾音等等。

这些设备已经带来了很多操作界面，有一堆遥控器。还不只，想简化它？做个中控，把这些都控起来，再加上白板来分享。这样的一个会议室，用户体验会如何？简单说，用不起来！这涉及多少线缆？谁能维护？这么多遥控器，谁能用？只有管理员，或者经过培训的专业人员才能把这个会议室用起来，这绝对是智慧会议的阻碍，因为没人会用。真正的智慧会议，应该是回归到每个使用者手上，谁都会用，这才是最关键的。

思科认为，这应该简化一下，像这样就够了，如何实现呢？

2016年底在国外、2017年在中国，思科发布了一个产品叫Room Kit，Room系列终端，主打的就是Room Kit 和 Room Kit Plus。很荣幸，拿了红点大奖。很简单，就是把这个设备放到会议室中，简化会议室。
为何这款产品在会议室能做这么大的简化呢？它有很强悍的性能，包括支持H265编码的压缩协议，可节省一半带宽，支持5K摄像机，还有超声波的识别设备等，有很多很多这样的工具。

但它最关键、最厉害的一点在哪里？是它内嵌了AI芯片。Room系列的产品线，都嵌入了NVIDIA Jetson芯片。自动驾驶、智能汽车是如今非常火的议题，在谷歌的自动驾驶中用的芯片就是NVIDIA Jetson，它是一个为AI做准备的芯片。而我们整个Room系列的产品、前端都嵌入了这样一个AI芯片。为何要这样？因为我们要把「智能」放到每一个前端设备、每一個人机交互界面上。

其实思科在人工智能领域已经有非常长久的技术积累。
人工智能第一个阶段是机器智能，这里面包括最简单的回声消除、视频的移动检测、空间音效、波束成形麦克风等等，都会涉及到AI，只不过这些相对来说简单一些，就算没有芯片集成也能做出来。还有一些超声波检测等，也比较简单。但是为什么要把芯片做进去呢？因为接下来还要做第二阶段、第三阶段，就是机器学习。
它对面部、声场进行检测，都是要一定运算量的，都需要芯片发挥作用。再加上后面还有深度学习，通过整个环境的采样，之后会做相应的分析，实时做出一些反应，给出一些回馈数据，包括专业领域的语义识别、面部识别、面部侦测以及之后的物件侦测都要靠芯片来提高效率。思科一直在推进，规划有明确的时间线，每一个功能在大概的时间都会完成。

现在用得最多的就是镜头跟踪，这是我们在现有设备中的第一个应用，为什么？会议分为会前、会中、会后，会中经常做的一个操作是什么？是摇镜头。A领导说完话，B领导接着说话，这时候镜头要摇过去，以前这个动作要靠人完成，但现在简化了，自动搞定，谁说话自动给特写。还可以判断房间内坐了多少人。
（现场演示镜头跟踪功能，以及人脸识别计算人数等）

有AI之后，可以做什么事情？第一可以判断画面中有人，还能知道有多少人。比如用到教育行业，就可以判断到底有多少人上课，学生有没有到，等等，都可以检测出。而且谁说话给谁特写，远程教育时，老师说话或者远端一个学生回答问题，直接就能看到学生的表情。

知道有人之后，还能认出这些人——只要有后台数据支持，这样就可以实现人脸签到了，你想代签是没有可能的，坐着有没有认真听、是不是睡着了，AI都能认出来。

还可以引入会议助手，有了后台数据支持，AI认得你了，你一进到这个房间，你今天要开哪个会，AI都知道，可以提前替你准备，不再需要去记会议号码了，一键进入，甚至连按键都不用。
自动配对会议的主要内容，PPT预先准备好。还可以提升会议室的使用效率，比如预定了的会议没人来，可以自动「释放」。可以做的事情非常多，很关键的一点是除了这样的AI芯片，我们还是一个开放的平台，思科的做法是把API开放出来，让大家可以根据API做自己的定制，这样才能融入到企业的文化中，因为每一个企业文化都不太一样。
这是基于视觉方面做的一些事。

声音方面也有很多东西，包括智能降噪，比如三角算法，能知道声音是从哪里发出来的，可以调用波束成型技术，直接针对这个方向采样，达到最好的音效，这是现在可以做的，机器学习、智能降噪。
下一步还可以做什么呢？深度学习。可以用这个设备监控整个会场的声场，会不会有杂音，比如高频噪音、宠物叫声等，经常会出现的杂音都可以记录下来，进行数据分析，预先准备好预案，对整个声场进行监管。
这可能会造成这样的效果——把思科的产品买回去，发现这个声音一般，但是用了一两个月之后，发现这个声音怎么突然棒了，因为有学习的功能，这就是有AI的好处，通过数据的积累，通过人工智能给你相应的对策，而且是个性化、针对性的。

还能做什么？智能助手，这些都简单，可以帮你用指令去操作一些事情，帮你做对话管理，包括直接回答你一些疑问，帮你组织这个会议，都可以用语音来实现。

再接下来是什么？我们还有超声波技术。超声波有一个特性，不穿墙。把设备放在这个房间里面，超声波就只会在这个房间里出现，它绝对不会延伸到外面去，因为它不穿墙、玻璃、木门，而且人听不到，你不知道你自己被监控。
超声波可以用来干什么？思科做了一个超声波同步投屏与控制。拿这个设备来房间里面，根本不用做配对，自动就可以识别设备，可以做一些投屏的动作，甚至可以拿着小平板或者手机直接操控终端。这是超声波同步投屏与控制。

但它的作用远远不止于此，AI还可以做超声波移动检测，可以做简单的智能唤醒和房间监控的事情。

场景大概是这样子的：一开始设备是待机状态，当有人进入到房间的时候，通过超声波检测，设备会自动进入半唤醒状态。

半唤醒后，它可以做一些提示如，Hello问好。如果是扫地阿姨就不管了，如果是真正用这个设备的人，它就会为你准备一些东西。

它会判断你可能是今天的与会者，帮你准备好相应的东西。

识别出来一些信息，这就是一键进入激活状态，然后就可以直接开会了。

甚至，还能做什么呢？后台有AI，帮你把会议内容准备好，所以整个过程就非常顺畅。

这是都是目前我们已经知道可以做，甚至有明确路线即将会发布的功能。

最关键的是什么？思科是做网络出身的公司，最强的东西是设备对网络的识别能力，这是我们最强的地方。思科也会有自建云的服务在其中，智慧云、协作云。我们的终端可以搭配着平台云实现更多的功能。

最后总结一下，其实智慧、AI，和会议有非常多的可集成的东西，而思科就是通过这样的智慧前端以及智慧的云平台去实现整个会前、会中与会后的管理，让整个会议充满智慧。最关键的是，思科是一个很开放的平台，不单提供自己的技术，还开放了所有API接口，可以跟很多合作伙伴一起融合在这个平台里面，一起做智慧会议。

思科有统计，关于智慧会议这个市场究竟能有多大？思科认为有100亿美金这样的庞大市场，而现在已经采用智能技术的会议室，只占5%，还有95%等着我们跟大家一起去开发。

希望我的分享能给大家带来一些火花和思考。思科提供开放平台，也愿意跟各位一起去开发这个开放的平台，谢谢大家！
文章来源：《商显世界》公众号