在全球化商务与学术交流日益频繁的当下,复杂环境中的跨语言沟通需求对智能设备提出了更高要求。讯飞双屏翻译机2.0构建了硬件、算法、场景适配三位一体的解决方案,自动过滤1米外环境噪音,准确捕捉关键信息,避免因人声嘈杂造成机器听不清翻不准的问题。尤其在国际展会现场、工厂实地考察等典型场景中展现出卓越的环境适应能力,进一步解决用户在嘈杂环境下实时翻译问题。
01.
它的耳朵会“主动出击”
创新降噪算法架构:
从声音分离到准确捕捉
讯飞双屏翻译机2.0机身配置五麦克风阵列,左右两侧 底部的“星型降噪耳朵”能360°捕捉声音。当工厂轰鸣、人群嘈杂等噪音来袭时,翻译机会通过强降噪算法自动过滤1米外的嘈杂音,而你说的关键信息,则会被准确捕获。典型应用如在展会嘈杂环境中,能准确分离发言人语音与背景噪声,就像给噪音套上消音罩,只留人声“干干净净”地钻进翻译引擎,离线也能“超神发挥”。
原始声音:人声和背景噪音混在一起,听不清楚。
降噪处理后:人声和噪音被分开,说话声变得清晰可辨。
02.
它的“大脑”让“耳朵”更聪明
“鸡尾酒会问题”:
机器语音识别面对的巨大挑战
想象一下,你身处一场热闹的鸡尾酒会:人群的欢声笑语、音乐的鼓点律动、酒杯的交错碰撞,交织成一片混沌的声浪。但神奇的是,你的大脑却能在这片喧嚣中准确捕捉到对面好友的私语——这种人类与生俱来的“选择性听觉”,正是人工智能领域孜孜以求破解的难题。
1953年,英国科学家 Edward Colin Cherry 在研究人类认知的注意力机制时,提出了著名的“鸡尾酒会问题”(Cocktail Party Problem),从这个问题提出之日起,便一直是神经学、心理学、人工智能等领域令人着迷的研究课题。在人工智能领域,这一挑战的核心难点就是让机器能够像人类一样,从混杂的声源中分离并聚焦目标语音。
随着人工智能技术的发展,当前语音识别技术已经可以以较高精度识别安静环境下一个人的讲话内容。然而,现实场景往往复杂的多:环境噪声的随机突变、噪音声源的相对移动,甚至目标人声的大小和抑扬顿挫,都有可能让机器“走神”,迷失在声音的迷宫里。对于翻译机产品来说,只有“听得清”才能“译得准”。在更复杂的现实场景中,听得清不仅仅依赖于灵敏的“耳朵”,更依赖于聪明的“大脑”,只有让机器学会“专注的艺术”,不断向鸡尾酒会难题发起挑战,翻译机才能真正解决嘈杂的闹市街头、展会现场,以及机械轰鸣的工地现场、工厂产线的沟通交流问题。
技术难度远超主动降噪:
深度强化学习缔造“声学结界”
说到降噪技术,近年来最耳熟能详的便是主动降噪(Active Noise Control, ANC)。这种技术方案从噪声源本身着手,设法通过电子线路接收原噪声,随后将原噪声的相位倒过来,以反向声波来抵消噪音,主要应用在耳机产品中。
从原理上来讲,不难发现,ANC有简单明确的目标,即消除所有的可测声音。换句话说,只需要将接收到的所有外部声音一律抵消掉,无需从混杂的声源中分离并聚焦其中的某个目标语音。而鸡尾酒会问题,在技术上则是需要通过盲源分离(Blind Source Separation, BSS),是指在无法预知各种声音信号及其混合方式的情况下,从混合信号中分离并选择出其中一个。不同于主动降噪简单、明确的目标,盲源分离需要处理更多不确定因素。
盲源分离技术更像是一场复杂的“听觉魔术”。在复杂噪声类型和随机声源位置的情况下,凭借混合信号本身的统计特性(如语音的稀疏性、独立性),通过算法在时频域中逆向解构声场,分离出独立的声源成分。其难度远超主动降噪:既要应对未知数量的声源、重叠的混响与多径效应,还要在数学上解决“鸡尾酒会问题”的欠定方程(传感器数量<声源数量时的病态求解)。

为了解决这一难题,讯飞算法工程师们引入了深度强化学习方法,在传统波束形成(Beamforming)与到达时差(TDOA)的显式物理建模基础上,通过深度神经网络引入可学习的声学距离嵌入向量(Acoustic Distance Embedding),将真实物理世界的空间距离作为决策边界,通过对抗训练指导算法模型在特征空间中对“近场人声”与“远场干扰”进行非线性分离,从而让机器自主学习和领悟空间声纹密码,赋予机器一种接近人类的空间直觉,以此在嘈杂声场中构建智能化的“声学结界”。
解决“远近距离”的问题之后,讯飞算法工程师们又在时频域分别引入了多尺度自适应注意力机制(Multi-scale Adaptive Attention Mechanism),使算法模型进一步具备了类似人耳的“选择性聚焦”能力,模拟人类听觉注意力机制,让机器学会“专注的艺术”。
“通过深度强化学习方法,目标语音的STOI(语音可懂度)达到0.92,在工厂90dB机械轰鸣噪音、展会复杂背景人声混杂场景,语音识别率从 32.39% 提升到 98.69%,这个准确率已经接近了理论极限。”讯飞研究院声学算法高级工程师程枫介绍道。
讯飞双屏翻译机2.0:
“耳朵”与“大脑”的默契配合
讯飞双屏翻译机2.0旗舰新品于4月17日在日本大阪世博会正式发布,机身创新性地配置了五颗高灵敏麦克风,每一颗“耳朵”都能灵敏地捕捉360°的声音,相互配合在一起收音更加清晰。此外,五颗麦克风在三维空间形成了讯飞独有的星型阵列布局,从而让每一颗“耳朵”能够聚焦各自的分工,提炼不同方位的声音。
五颗“耳朵”听到的五路声音,在“大脑”中统一对比决策,在毫秒之间快速判断细微差异,解算音源距离,拦截远场噪音的干扰。随后,“大脑”还要在余下的声音当中再执行一次准确解算,从混杂的声源中推敲并分离出真正的目标语音。这一切都需要在百毫秒之间完成,得益于讯飞双屏翻译机2.0配置的超强算力芯片,其中的神经网络专用计算单元(NPU)能够完成每秒3.2万亿次的浮点数计算。
当机械噪音轰鸣、人群嘈杂来袭,讯飞双屏翻译机2.0会通过“耳朵”和“大脑”的默契配合,形成一道无形的声音屏障,自动过滤1米外噪音,并在剩下的声音里准确地挑选出目标语音,进行识别和翻译。
03.
场景实战:
从“修罗场”到“VIP室”
深度适配专业场景,重构复杂环境沟通体验
场景模拟一:工厂车间
工厂车间里,传统翻译机或手机翻译早就被背景音吵得“耳鸣”,但双屏翻译机2.0可以一键切换“强降噪”模式,比如某工厂企业用它对接客户,在工厂验资时,即便工厂的共鸣声震耳欲聋,翻译机还是可以准确抓取客户的需求。
场景模拟二:展会现场
展会现场常面临展台背景音、邻近展位宣讲声等多声源干扰,传统翻译设备易出现 “声音串扰”。讯飞双屏翻译机2.0通过算法强降噪策略:在展台一对一沟通时启用 “强降噪”,隔绝1米外噪音。
强降噪功能展示
这场“降噪革命”的背后,是讯飞对全球化沟通痛点的深刻洞察。与其用更大音量对抗噪音,不如用更聪明的耳朵重构听觉秩序。当设备拥有选择性倾听的智慧,在跨国展会的声浪洪流里截取关键需求,于工业车间的金属交响中提炼技术参数,让跨语言交流从“高声呐喊”进化为“准确投送”。
#artContent h1{font-size:16px;font-weight: 400;}#artContent p img{float:none !important;}#artContent table{width:100% !important;}