我们现在联接全球大概 5 亿终端,但是海外的终端能力参差不齐:有大量的千元机,甚至千元机以下的机型,操作系统、软件能力水平等等不一。音视频实时通讯,其实非常依赖于终端的能力。在海外终端水平比较差的情况下,摄像头素质也比较差,采集出来的音视频效果不好,时延也比较高,让业务面临很复杂难处理的场景,这时候就需要我们对底层芯片进行极致的压榨,以及把这个技术能力发挥到极致,做好全球各种各样终端的兼容性,来解决这个问题。从网络上来看,我以前一直在海外做网络架构转型以及网络流量工程相关工作,也去过很多国家,在这方面海外与国内相比差距非常大,而且海外网络环境以及地域环境比国内环境要复杂的多。比如菲律宾、印尼等等,印尼是岛国,在各个岛之间部署网络连接能力是很难的,导致印尼的整体网络情况比较差。很多企业要出海中东,例如埃及、土耳其,这些地区的 3G、4G 占比很高,网络极其不稳定。我们还有一些客户在非洲,流量资费非常高。从网络层面上讲,是非常复杂的弱网环境,怎么在弱网环境下提供高质量的音视频通话,这是出海的痛点和难点。再者,音视频非常基于感知,是基于人的感官体验来发展的技术。我们的感官很难用几个数字来定义,这时候 AI 的引入就顺理成章,AI 基于人的感知、思考、想法方面大有可为。总结一下,我们身处的物理世界需要面临各种复杂的环境状况,即构希望通过整个产品矩阵去支撑企业快速构建高质量的实时互动环境,让企业有更好的发展。在传输上,我们通过覆盖全球的虚拟网络进行音视频高质量传输,可以提供比传统 CDN 更低的、小于 1 秒的延迟,帮助大家做大量的分发,提升产品体验。在扩展服务方面,我们可以提供如白板、实时录制、共享等能力,也会提供 AI 云服务能力,比如 Avatar、元宇宙、实时音频转文字处理、抠图等云服务。而实际上AI 的能力其实是贯穿于即构整个产品矩阵底座的。在基础的产品基座下面,我们会提供更多基于具体细分行业的解决方案,包括泛娱乐、社交、游戏、元宇宙以及出海、金融教育等各方面。我们也会提供Saas平台,比如我们的即构会议,同时即构也为国内艺试等相关严肃考试提供技术支持,我们有一个小艺帮产品,是国内高考底层音视频能力最大的供应商。我们知道国内的高考或者严肃教育,对于音视频的质量稳定性、可靠性要求非常高,因为任何一个事故都可能导致负面社会效应。
今年 OpenAI 的发展,AI 界迎来了 iPhone 时刻,让大家颇为震惊。据 IDC 的数据显示,国内外对于生成式 AI 的需求以及期望都是非常大的。生成式 AI 在 ChatBot 在线问答、生命科学等领域,发挥了非常大的作用,我们也看到 AI 在蛋白质破译上的应用,帮助人类大幅提升生产效率。那么,AI 对于即构以及整个泛娱乐行业而言,也会在玩法创新、质量优化上应用 AI 能力,为企业提供更好的服务。刚才我提到,现在行业一直在寻找未来更好的实时互动能力,之前视网膜手机是 2K 或者 4K 分辨率,当你把屏幕放到眼睛前时,这个分辨率就远远不够了。对苹果今年推出的 Vision Pro 而言,4K 只是个入门级,它最高能达到到 8K 甚至 16K 的分辨率。那么这么高的分辨率,必然使功耗、算力以及编解码的能力、传输的能力达到一个质的飞跃,这其中也会引入像 AI 的一些能力去支撑端到端的变革。Google 的 Starline 全息投影技术,使用更高级的高分辨率专业设备,构造真正能够让用户感知的惊艳效果,目前这样的一套设备还是比较贵的,可能要十几万美金。但是随着技术发展,它可能慢慢地会变成一个更平价,可以推广开来的技术。这些技术最终还是离不开音视频的传输与整个行业的发展,也是即构现在正在做的方向。泛娱乐是即构关注比较大的行业领域,有众多客户使用我们的方案。即构是如何利用 AI 赋能整个泛娱乐场景,可以给大家做一些详细的介绍。泛娱乐场景的业务目前都在从国内往海外发展。对于海外来讲,我们的玩法也在遍地开花,有很多的优秀企业通过即构的方案实现业务增长。其中,就像我刚刚提到的在直播的场景下,海外网络情况很差,客户往往会采用很低清效果或画质。不过,客户通过即构把低清画质提升到高清,让产品的留存、DAU 以及使用时长都有了极大的增长,因为高清的画质给用户带来更好的感官体验,这样必然会带来营收增长。那么,即构是如何在网络很差的情况下提升画质呢?或者说即构如何在压缩码率的情况下,带给用户更高清的画质?这里我们就会用到 AI 能力,比如说我们优化 H.265 编码算法,节约 30% 以上的码率,以此实现画质提升。另外我们会采用超分算法,传统来讲,要使分辨率变高,一般采用差值算法去放大画面,但是这种算法带给用户的感知不太友好,会有很多的色块,处理效果不佳。现在即构采用 AI 的方式,通过卷积神经网络算法去做,在业界优秀模型基础上进一步进行调优,会有更高清的画质能力。对于语聊场景,即构自研 3A 算法及 AI 场景化降噪。传统的降噪只能针对通用场景降噪,但在 AI 加持下,我们可以针对不同场景,比如办公场景、户外场景等,去做基于场景的降噪。在视频背景存在噪声的情况下,如果我们应用 AI降噪能力,可以把背景中“咔咔咔"的噪声消除掉,还原出更好的音质。
我们在教育场景上也助力客户拓展场景能力。教育客户有个出海方面的痛点,就是需要教各国语言,就要雇佣很多老师和翻译人员。目前我们有了这种 AI 能力后,企业仅需提供教育片段,我们就可以帮助自动生成各种语言的教学视频,极大的节省了老师及翻译成本,所以当 AI 作为一种工具来使用时,可以大幅提升我们的工作效率。最后想讲的是,即构在全球构建了这样一个实时网络:覆盖我们所有的终端用户以及各个国家,选用智能化能力(包括选路能力、容灾能力、规划能力、自动扩缩容的能力),保障我们全球可达,用最低的网络要求做到最好的用户体验。其中,传音就在接入我们音视频的能力,它在尼日利亚一个非常差的网络上,测试过很多家音视频服务商,最后选用了即构。我们在弱网抗性方面是做得最好的,在80%、90%丢包情况下都能够保证音视频通话的流畅度。一言以概之,通过即构的实时互动 RTC 能力,叠加 AI 能力,希望可以给我们的企业客户及朋友们带来更好的业务增长。