百度语音+自动驾驶感知+深度学习平台技术解析
创始人
2024-05-07 13:02:06
0

HIEV快讯(文/戒僧)本文将解析三部分技术内容,出自百度2023 Create大会-技术开放日:

•百度如何用“手机全双工语音交互”改善使用导航应用的体验

•如何用“上帝视角”BEV技术提升汽车的自动驾驶能力

•如何用百度自研的深度学习平台飞桨加速科学研究

百度的“手机全双工语音交互”

据百度语音首席架构师贾磊介绍,在世界范围内,很长时间都没有一个方案能普适的支持在手机上实现全双工的语音交互——在手机播放导航提示的同时,也能够听清我们的指令,甚至像真人对话一样可以被我们随时打断,并对新的语音指令给予反馈。

困难有不少。想要实现全双工语音交互,必须先做回声消除,避免手机终端识别自己播放的声音。贾磊说,在前装软件的音箱、车载系统上比较容易实现,可以通过硬件适配算法,提前保证回声消除的效果。

而手机App属于纯软件后装方案,需要让软件算法适配不同型号的终端硬件。通常,手机上喇叭距离麦克风的距离比较近,同时手机终端款式多,硬件参差不齐。这些因素叠加在一起,会导致声音信号的回声消除会出现各种各样的问题。再加上手机硬件的迭代更新非常快速,回声消除效果就更加难以保证了。

5298b9cd7efcbc0fbdab3a6449ff2f0b.jpeg

面对这个难题,百度的解决方法是:融合传统信号处理和深度学习模型各自的优点,基于语音识别目标,端到端地进行回声消除和信号增强,解决了手机场景下的回声消除问题,即使手机音量开到最大,回声消除量也能达到40分贝,使得手机APP的语音识别功能能够正常工作。

0f61b6acc36e8d45d4f3369ce077968a.jpeg

据百度介绍,这是世界范围内、在全行业,第一个能在手机上实现纯软件方案回声消除的技术。百度研发出的基于SMLTA2的多场景统一预训练模型,一个模型解决噪声、用户口音和回声消除残余吸收等难题,在各场景下识别率相对提升超过20%,这在业界同类技术中,准确率是最高的,可以说实力遥遥领先。

61f076945798274c9112cbdc00836c6e.jpeg

百度的BEV及UniBEV自动驾驶感知方案

在自动驾驶领域,传统的图像空间感知方法是将汽车上的雷达、摄像头等不同传感器采集来的数据分别进行分析运算,把各项分析结果融合到统一的空间坐标系中,去规划车辆的行驶轨迹。这个过程中,每个独立传感器收集到的数据往往受到特定视角的局限,经过各自的分析运算后,融合阶段会导致误差叠加,无法拼凑出道路实际情况的准确全貌,给车辆的决策规划带来困难。

近些年来,行业中提出了BEV(Bird's Eye View,视觉为中心的俯视图)自动驾驶感知方案。不同于传统的方式,BEV自动驾驶感知就好比是一个从高处统观全局的“上帝视角”,车上多个传感器采集的数据,会输入到一个统一模型进行整体分析推理生成鸟瞰图,能有效地避免误差叠加;这种方案还能够做到时序融合,不仅是收集一个时刻的数据,分析一个时刻的数据,而是支持把过去一个时间片段中的数据都融合进模型做环境感知建模,时序信息的引入让感知到的结果更稳定,使得车辆对于道路情况的判断更加准确、让自动驾驶更安全。

a102e8c614dee1cd92b136795ea91b2f.jpeg

目前,百度并没有止步于BEV自动驾驶感知方案,还首次在业内提出了车路一体的解决方案UniBEV,集成了车端多相机、多传感器的在线建图、动态障碍物感知,以及路侧视角下的多路口多传感器融合等任务,是业内首个车路一体的端到端感知解决方案。基于统一的BEV空间,UniBEV 车路一体大模型更容易实现多模态、多视角、多时间上的时空特征融合。

百度”飞桨“深度学习平台

AI 为解决科学问题带来新方法的同时,也对AI基础软硬件带来诸多新挑战。毕竟,推动科学进步与开发一个人脸识别算法需要的并不完全是一种能力。

首先,深度学习平台需要具备更加丰富的各类计算表达能力,如高阶自动微分、复数微分、高阶优化器等;其次,科学问题求解需要超大规模的计算,这对深度学习平台与异构超算/智算中心适配及融合优化,神经网络编译器加速和大规模分布式训练提出了新的要求;此外,如何实现人工智能与传统科学计算工具链的协同,也是需要解决的问题。

489c9473d76206fee63f9759f809c376.jpeg

过去的这几年,百度飞桨团队在这些问题取得了进展。作为国内首个自主研发、功能丰富、开源开放的产业级深度学习平台,飞桨研发了一系列用于科学研究的工具组件,比如赛桨PaddleScience、螺旋桨PaddleHelix、量桨Paddle Quantum等,支持复杂外形障碍物绕流、结构应力应变分析、材料分子模拟等丰富领域算例,广泛支持AI加计算流体力学、生物计算、量子计算等前沿方向的科研探索和产业应用。

对于科学领域大规模计算的需求,飞桨推出了超大规模图学习训练技术PGLBox,是业界首个同时支持复杂算法+超大图+超大离散模型的大规模图学习训练技术,通过显存、内存、SSD三级存储技术和训练框架的性能优化技术,单机即可支持百亿节点、数百亿边的图采样和训练,并可通过多机扩展支持更大规模,目前已经在百度的智能交通、信息推荐、搜索等标杆场景实现落地,大幅提升业务效率和用户体验。

在科研生态方面,百度飞桨已经与高校、科研机构等开展了计算流体力学、分子动力学、动力气象学等方面的范例建设,并形成了一些开放性的、多学科交叉的生态社区,包括飞桨特殊兴趣小组(PPSIG)、共创计划等。

相关内容

热门资讯

安卓系统8.0镜像下载,轻松打... 你有没有想过,想要给你的安卓手机升级到最新的系统,却不知道从哪里下载那个神秘的安卓系统8.0镜像呢?...
安卓系统修改大全,全方位修改大... 你有没有想过,你的安卓手机其实是个大宝藏,里面藏着无数可以让你手机焕然一新的秘密?没错,今天就要来个...
安卓刷miui系统教程,安卓刷... 你有没有想过给你的安卓手机换换口味?别看它现在用得挺顺手的,偶尔来点新鲜感也是不错的。今天,就让我来...
超星学系统安卓版,便捷学习新体... 你有没有发现,学习生活越来越离不开电子设备了?手机、平板,这些小玩意儿简直就是我们的学习小助手。今天...
安卓平板6.0系统安装,轻松上... 你有没有想过,你的安卓平板6.0系统是不是该升级一下了呢?别看它现在看起来还挺精神的,但谁知道背后隐...
安卓系统屏幕显示文字,探索个性... 你有没有发现,手机屏幕上的文字有时候会变得模糊不清,或者颜色暗淡,让人看得很费劲?这可真是让人头疼的...
快递扫描系统下载安卓,便捷物流... 你有没有想过,每次快递员来送快递,他们是怎么快速找到你的包裹的呢?是不是觉得他们有超能力?其实,这背...
安卓系统能打开zip,操作指南... 你有没有想过,你的安卓手机里那些神秘的zip文件到底怎么打开呢?别急,今天就来给你揭秘这个小小的技术...
塞班怎么查找安卓系统,塞班系统... 你有没有想过,你的塞班手机里竟然也能装上安卓系统?听起来是不是有点神奇?别急,今天我就来手把手教你如...
安卓系统短消息提醒,安卓系统短... 你有没有发现,手机里的短消息提醒功能有时候就像一个贴心的管家,有时候又像个爱闹腾的小孩子?今天,咱们...
安卓系统如何跳过密码,安卓系统... 你是不是也和我一样,有时候手机锁屏密码设置得太复杂,每次解锁都要费好大一番力气?别急,今天就来教你怎...
鸿蒙系统功能与安卓,功能对比与... 你知道吗?最近手机圈里可是热闹非凡呢!华为的新操作系统鸿蒙系统(HarmonyOS)一经推出,就引发...
安卓系统卡苹果系统不卡,揭秘两... 你有没有发现,身边的朋友都在争论安卓系统和苹果系统哪个更好?其实,这个问题就像是在问谁家的孩子更聪明...
安卓系统卡解决了吗,安卓系统卡... 你有没有遇到过安卓手机卡顿的问题?是不是每次打开应用都感觉像蜗牛爬行?别急,今天就来聊聊这个让人头疼...
华为安卓系统下载软件,畅享海量... 你有没有想过,手机里的系统就像是我们的大脑,而下载的软件就像是大脑里的各种功能?今天,就让我带你一起...
平板安卓7系统好吗,体验流畅与... 你有没有想过,你的平板电脑的安卓7系统到底怎么样呢?是不是觉得它既熟悉又有点陌生?别急,今天咱们就来...
鸿蒙系统和安卓10,跨时代操作... 你知道吗?最近科技圈可是炸开了锅,因为华为的新操作系统鸿蒙系统横空出世,而且它竟然和安卓10杠上了!...
苹果安卓和鸿蒙系统,三大操作系... 你有没有发现,现在的手机市场就像是一场精彩纷呈的武林大会,各路英雄齐聚一堂,各显神通?没错,说的就是...
鸿蒙怎么还原安卓系统,系统还原... 你是不是也和我一样,对鸿蒙系统里的安卓应用情有独钟呢?最近,不少小伙伴都在问,鸿蒙怎么还原安卓系统?...
荣耀10改回安卓系统,重拾纯净... 你有没有想过,你的荣耀10手机,曾经那般风光无限,如今却想要改回安卓系统呢?这可不是一件小事,得好好...