自2020年10月上线以来,说咱闽南话App的闽南智能语音转换工具已陪伴超过550万人次跨越语言的乡愁,深受广大用户的认可与喜爱。

它不仅仅是一个工具,对漂泊在外的游子来说,它是一台乡音的复读机,可以随时听随时学。

对想与孙辈聊天的阿公阿嬷来说,它是一座数字桥梁,方言转成文字,关爱不再因语言阻隔,文字合成乡音,牵挂从此听得见回响。

对所有热爱闽南文化的人来说,它是一颗发芽的种子,在众人声音的浇灌下茁壮生长。

“有了它,我能听懂我奶奶在说什么啦!”

“它翻译的闽南话怎么跟我说的不一样?”“这不是泉州口音吧?”

“这个翻译可以设置漳州口音吗?”

……

说闽听见了这些声音,也深知闽南话内部丰富的口音差异。正是每一位用户的反馈,让这颗种子有了更明确的生长方向——我们决定闽南话语音合成工具进行更新优化

闽南话智能语音转换工具包括闽南话识别和闽南话语音合成工具,其中,闽南话识别工具背靠厦大语音资料库,囊括了建省内厦、漳、泉及国内外多地闽南话聚居地的语音,但彼时的闽南话语音合成工具仅以厦门话为主,还无法做到准确翻译其他地区的闽南话。

作为一向包容各种口音的平台,说闽始终在努力接收与平衡各方意见,然而想要完全覆盖每一种口音,实在是一项大大大大大工程!尽管如此,说闽也从未停下探索的脚步。

2023年8月,说闽与厦门大学智能语音实验室科研团队签订合作,共同开发《闽南方言智能语音》项目,将口音扩充纳入了计划,确定增补晋江话

留住那一口乡音:会说晋江话的AI来了!

为了让AI学会晋江话,我们死磕了近一千多个日夜。在开发的过程中遇到的第一个问题就是:去哪里找最地道的晋江口音?于是我们踏上了一段漫长的寻音之旅。

说闽联合厦门大学智能语音实验室分别在2023年11月与2024年9月发起招募项目有声语料库发音人,通过两轮公开招募,从语音纯度、地域代表性、年龄层次等多维度筛选,共有35位入选成为发音人,并在之后陆续开启了录制工作。

为了更系统、集中地扩充语音样本库,2025年4月和8月,说闽特邀晋江本地语言学者、资深媒体人、广播主持人等参与专项录制

收集来的有效录音只是第一步,真正的挑战是语音标注。这是个听得耳朵长茧的活儿,同时也需要具备一定的专业知识。

语音标注组人均闽南话十级,他们每天要听几百条字词句,并给它们贴上标签,项目团队仅标注就耗费了近两年时间。

标注完后,还要将晋江闽南话的声调、韵律等规则交由技术人员,进行模型建立和大数据训练。

模型训练阶段更是煎熬,起初AI说出来的闽南话被测试人员笑称是“机器人地瓜腔”,每个字发音好像都对,但听起来就是不像人话。为了调整模型参数,算法团队天天和AI斗智斗勇。

历时三个月的内部测试与持续优化,经过N个版本的毒打,AI进化成了能听懂、能说出晋江话的“咱厝人”。

时间推移到现在,我们诚惶诚恐地交出这份答卷——闽南话语音合成工具(晋江话测试版)开放体验啦!

正是大家一次次的参与和反馈,才让这条用科技托举乡音的路越走越坚定。也正因如此,晋江话测试版在今天才能走到大家的面前。

它或许还不完美,但每一个音节都凝结着项目团队无数个日夜的汗水与执着。它可能还会偶尔犯傻,但绝对是你见过最努力的AI。快来「说咱闽南话」App调戏它吧!

未来说闽仍将步履不停,拓展更广泛的闽南话使用区域,让更多腔调和乡音都能被听见、被传承。期待与大家相聚在说闽,于乡音里重逢故乡。