这个广东“00后” 如何将AI语音模型做到全球第一?
创始人
2026-05-07 09:02:01
0

文/羊城晚报全媒体记者 黎秋玲

图/羊城晚报全媒体记者 刘志勇

2025年的全球AI语音圈,发生了一场令人咋舌的“逆袭”。

在被誉为AI“奥林匹克”的HuggingFace的TTS Arena榜单上,一款名为“悟声Vocu V3”的中国AI语音模型,在数万名全球用户的盲测投票中,登顶世界第一。排在其后的,有美国的Inworld、英国的ElevenLabs等估值百亿美元的国际独角兽,也有阿里、MiniMax等国内知名企业的同类产品。

创造这一奇迹的,是广州烁谷科技公司。这家公司的掌舵人,是出生于2002年的大男孩谢伟铎。他何以凭一己之力带领团队站上全球AI语音的顶峰?这份逆袭背后,藏着怎样一段鲜为人知的科创征程?近日,羊城晚报记者专访谢伟铎,走近这位“00后”的科创之路。

破局:给AI语音注入“人味”

在位于广州海珠区的办公场地,记者见到了谢伟铎。白色T恤搭配黑色短衬衫,黑框眼镜后面是一双清澈明亮的眼睛。谈起计算机与语音模型,他的语速会不自觉地加快,满是热忱。

“我们的核心优势,就是让AI语音有了‘人味’。”谢伟铎这样概括“悟声”的特别之处。在传统的语音合成领域,机械感曾是难以逾越的鸿沟。但“悟声Vocu”打破了这一僵局,它像是一位深谙情感的“配音演员”,能深度理解文本中的喜怒哀乐,精准演绎哭、笑、歌唱等。仅需3秒的声音样本,就能实现相似度超95%的瞬时克隆。

这种“有温度”的技术,还带来了颠覆性的成本变革。谢伟铎告诉记者,真人配音一分钟动辄数百上千元,而“悟声”将成本压缩至几毛钱,仅为真人配音的千分之一甚至万分之一。从游戏、影视的离线配音,到陪伴类AI助手的在线交互,甚至是呼叫中心的仿真应答,这项技术正以惊人的速度渗透各个应用场景。上线短短3个月,“悟声”用户量突破百万,访问量达千万级,并顺利通过了深度合成服务算法备案等。

值得一提的是,在安全与合规方面,烁谷科技通过自研水印和鉴伪模型,实现AI音频无痕溯源与高精度鉴别,守住科技安全、向善底线。

缘起:从为虚拟主播“寻声”开始

谢伟铎最初只是为了满足一个简单的愿望:给自己的虚拟主播“木几萌”找一个好听的声音。

高中时期,谢伟铎就对人工智能充满了好奇。2023年年初,在巴黎大学就读的他,利用课余时间自主训练了一个小型AI对话模型,先应用于QQ机器人,后将其接入自制的虚拟主播“木几萌”。没想到,这个AI虚拟主播在B站迅速走红,粉丝量远超同类竞品。

然而,走红背后藏着尴尬——“木几萌”的声音太僵硬了,“说话像机器人读课文”。谢伟铎翻遍了市面上所有的语音方案,始终没找到一款能匹配“木几萌”灵魂的语音产品。

“既然没有,那就自己做一个。”没有资金、没有团队,只有一台电脑和一股不服输的劲头。谢伟铎放弃了大部分娱乐时间,恶补语音合成知识。他尝试用生成式AI架构做语音合成,将声音编码成类似文本的形式,再通过算法还原。“这一新的架构的探索,比字节、阿里等大厂早了一年。”他不无自豪地说道。

2023年秋,正式版本诞生。当搭载新声音的“木几萌”开口说话时,网友们惊呼:“这声音太有人味了!”“用的是哪家的技术?”原本自用的技术意外获得市场的热烈反响,这也成为了烁谷科技的起点。2024年6月,大二学生谢伟铎做出了人生中重要的决定:休学回国,在广州正式创业。

他选择了百度前CEO陆奇团队的奇绩创坛作为天使投资人,不仅因为资金,更因为这里能提供宝贵的创业指导。“他们不仅给钱,还请李想、周鸿祎等大佬分享创业干货。”谢伟铎说。

如今,烁谷科技入驻广州首个大模型孵化空间——清智孵化器·琶洲模方。作为典型的AI OPC(一人公司)企业,烁谷科技团队仅由三四名核心成员组成,执行力极强,契合广东支持人工智能OPC创新发展的政策导向。

“基地帮我们节省了不少成本,也让技术更快落地。”谢伟铎感慨道。在琶洲模方,像他这样的年轻创业者不再是孤军奋战,而是置身于一个由专家、资本、数据构成的共生生态中。

回国创业后,谢伟铎的AI语音模型不停迭代,不仅曾登顶全球第一,如今已获数亿元估值,正稳步推进融资事宜,并走上了盈利之路。

成长:包容为成长提供沃土

回溯谢伟铎的科创成功之路,离不开那段被热爱和包容包裹的童年成长经历。

他与电脑的缘分始于3岁,“家里的台式电脑摆在客厅,无密码、无禁令,父母的态度是‘随便玩,弄坏了帮忙修’。”谢伟铎的父母都是学中医的,在教育上,他们从未拘泥于“标准答案”,给予他最大限度的自由。

这种开明为兴趣成长提供了沃土:7岁时,谢伟铎就在淘宝开网店,帮人修电脑,一次50元,自己管理收入;小学四年级时,他参加高中组手机应用开发赛,凭借自研智能家居APP斩获全国第三。一切的电脑、编程知识,全靠他自学!

12岁时,他沉迷上了《我的世界》这款游戏,用淘汰电脑搭建游戏服务器,与网友一起打游戏,中学时就靠这赚了十几万元。这个阶段学习压力稍大,他还与父母斗智斗勇,破解电脑密码、通宵摸黑玩游戏……

“当时我最怕参加家长会了。”谢伟铎的父亲对记者笑称,老师常建议他没收儿子的电子产品,直言“不然没有前途”。但其父亲认为,“男孩子需要陪伴,才能走进他的内心。”于是,父亲主动走进他的世界,还以“大表哥”的身份,帮他管理3个2000人的QQ群。父亲的理解,帮助他度过了这段有点叛逆的青春期,成为他坚持兴趣的底气。

初中后期,谢伟铎又迷上编曲,无专业指导就自己摸索,作品累计播放量已达几个亿,14岁创作的生日单曲播放量累计突破3000万。“我现在做语音,跟编曲有很大关系,都是对声音的感知和打磨。”他说。

凭借过硬的英语语言功底和积累的计算机等知识,谢伟铎通过中法友好教育项目,前往法国读高中,大学考进巴黎大学计算机系。更多的空闲时间,为他捣鼓虚拟主播、研发AI语音模型提供了条件。面对“AI天才”的赞誉,他显得异常淡然:“我的成绩不算拔尖,很多东西都是在课外学的。始终保持好奇心,想到就做。我现在的成果,本质上只是一直把兴趣往后延展的结果。”

“新”对话

羊城晚报:您觉得AI语音模型的未来是怎么样的?

谢伟铎:全球AI语音的市场规模至少都是千亿美元以上,是非常有前景的一项技术。未来希望能够做到推进人机交互的情感化的终局,达到一个和真人媲美的越过“恐怖谷”的水平。

羊城晚报:近期“悟声”AI语音模型有哪些新进展?

谢伟铎:目前正在打磨优化智能体的表现,系统正在内测新的功能,例如用文字生成音乐、音效的功能,顺利的话一周内可以上线。

相关内容

这个广东“00后” 如何将...
文/羊城晚报全媒体记者 黎秋玲 图/羊城晚报全媒体记者 刘志勇 2...
2026-05-07 09:02:01
OpenAI解释为何禁止模...
OpenAI近日公开说明了旗下模型出现"哥布林问题"的来龙去脉。此...
2026-05-07 03:22:17
ChatGPT为何痴迷于地...
ChatGPT对地精有着莫名其妙的执念。说真的,它非常非常喜欢地精...
2026-05-06 21:42:43
22万人次涌入广州南沙观演...
“五一”假期,时代少年团“加冠礼”演唱会“加冠”广州站在广州南沙大...
2026-05-06 18:23:20
AI短剧大爆发,红果为何“...
这段时间,AI剧如雨后春笋般在各大平台上线,但就在行业疯长的时候,...
2026-05-06 12:00:54
人机协同如何更好服务学生成...
当前人工智能深度融入教育场景,日益成为学习生态中不可或缺的有机组成...
2026-05-06 11:21:59

热门资讯

原创 如... 肺是人体非常重要的器官,空气中的很多灰尘和垃圾都会随空气进入肺部,所以肺部的清洁是非常重要的。我们可...
孕妈检测出胎儿没有“胎心”究竟... 原标题:孕妈检测出胎儿没有“胎心”究竟为何?多半是这4种原因,预防下 昨天小樱...
耳聋耳背知识分享-----耳朵... 耳朵听力下降恢复方法首先要找出听力下降的病因,其次针对病因进行对症治疗。 耳朵听力下降,如何恢复听...
激光术后护理指南:如何科学恢复... 二氧化碳激光是一种常用于去除瘢痕、色素沉着、皱纹和其他皮肤问题的治疗方法。它通过发射高能量的二氧化碳...
如何有效应对低血压问题,提升生... 血压低,这个问题在生活中并不罕见。很多人可能会觉得,血压低就像是个小毛病,不用太在意。但实际上,低血...
郑州银行大额存单利率:1、活期... 导读2022郑州银行大额存单利率一、存款利率:1、活期存款:0.3%2、整存整取:三个月1.60%,...
孩子自控力差?家长如何引导培养 孩子自控力差?家长如何引导培养 在孩子的成长过程中,自控力是一项至关重要的能力。它关乎孩子的学业表现...
原创 婴... 在宝宝的成长过程中,奶粉作为重要的营养来源,其选择至关重要。那么,什么样的婴儿奶粉比较好呢?奶粉的营...
原创 高... 《水浒传》中,那些绿林好汉多半是不近女色的,比如晁盖登场时,书中就提到这么一句。 “那东溪村保正,姓...
存款利息怎么算?湖南农商行存款... 导读湖南农商行存款利息怎么算?湖南农商行作为湖南最大的股份制银行,它是一家地方性、集约化、国际化、股...