力压国际巨头，广东“00后”小伙如何将AI语音模型做到全球第一？

力压国际巨头，广东“00后”小伙如何将AI语音模型做到全球第一？｜一线探“新”

创始人

2026-05-06 10:41:02

0次

2025年的全球AI语音圈，发生了一场令人咋舌的“逆袭”。

在被誉为AI“奥林匹克”的HuggingFace的TTS Arena榜单上，一款名为“悟声Vocu V3”的中国AI语音模型，在数万名全球用户的盲测投票中，登顶世界第一。排在其背后的，有美国的Inworld、英国的ElevenLabs等估值百亿美元的国际独角兽，也有阿里、MiniMax等国内知名企业的同类产品。

创造这一奇迹的，是广州烁谷科技公司。更令人意想不到的是，这家公司的掌舵人，竟是一名出生于2002年的“00后”大男孩，他叫谢伟铎。

小伙意气风发，何以凭一己之力带领团队站上全球AI语音的顶峰？这份逆袭背后，藏着怎样一段鲜为人知的科创征程？近日，羊城晚报专访谢伟铎，走进这位“00后”小伙的科创之路。

破局

给AI注入“灵魂”的降维打击

在位于广州海珠区的办公场地，记者见到了谢伟铎：白T恤搭配黑短衬衫，黑框眼镜后是一双清澈明亮的眼睛，谈起计算机与语音模型，他的语速会不自觉加快，手势间满是热忱。面对“AI天才”的赞誉，他却显得异常淡然：“我现在的成果，本质上只是我一直把兴趣往后延展的一个结果。”

“我们的核心优势，就是让AI语音有了‘人味’。”谢伟铎这样概括“悟声”的杀手锏。

在传统的语音合成领域，机械感曾是难以逾越的鸿沟，但“悟声Vocu”打破了这一僵局。它不局限于朗读的角色，更像是一位深谙情感的“配音演员”。它能深度理解文本中的喜怒哀乐，精准演绎哭、笑、歌唱等，仅需3秒的声音样本，就能实现相似度高达95%以上的瞬时克隆。

这种“有温度”的技术，还带来了颠覆性的成本变革。谢伟铎告诉记者，真人配音一分钟动辄数百上千元，而“悟声”将成本压缩至几毛钱，仅为真人配音的千分之一甚至万分之一。从游戏、影视的离线配音，到陪伴类AI助手的在线交互，甚至是呼叫中心的仿真应答，这项技术正以惊人的速度渗透进各个应用场景。

上线短短3个月，“悟声”用户量突破百万，访问量达千万级，并顺利通过了深度合成服务算法备案等。

在谢伟铎看来，全球千亿美元量级的语音市场，终局将是人机交互的情感化——让AI越过“恐怖谷”，真正像人一样说话。

值得一提的是，在安全与合规方面，烁谷科技还构建了“创造—应用—守护”技术闭环，通过自研水印和鉴伪模型，实现AI音频无痕溯源与高精度鉴别，守住科技安全、向善底线。

缘起

为虚拟主播“寻声”引发的创业之路

谢伟铎这场技术革命的火种，最初只是为了满足一个简单的愿望：给自己的虚拟主播“木几萌”找一个好听的声音。

高中时期，谢伟铎就对人工智能充满了好奇。2023年初，在巴黎大学就读的他，利用课余时间自主训练了一个小型AI对话模型，先应用于QQ机器人，后将其接入自制的虚拟主播“木几萌”。没想到，这个能听懂中文抽象梗、能接住网络热词的AI虚拟主僠，在B站迅速走红，粉丝量远超同类竞品。

然而，走红背后藏着尴尬——“木几萌”的声音太僵硬了，“说话像机器人读课文”。谢伟铎翻遍了市面上所有的语音方案，始终没找到一款能匹配“木几萌”灵魂的语音产品。

“既然没有，那就自己做一个。”

没有资金、没有团队，只有一台电脑和一股不服输的劲头。

谢伟铎放弃了大部分娱乐时间，恶补语音合成知识。他尝试用生成式AI架构做语音合成，将声音编码成类似文本的形式，再通过算法还原。“这一新的架构的探索，比字节、阿里等大厂早了一年。”他不无自豪地说道。

2023年秋，正式版本诞生。当搭载新声音的“木几萌”开口说话时，网友们惊呼：“这声音太有人味了！”“用的是哪家的技术？”原本自用的技术意外获得市场的热烈反响，这也成为了烁谷科技的起点。

2024年6月，大二学生谢伟铎做出了人生中重要的决定：休学回国，在广州正式创业。

他选择了百度前CEO陆奇团队的奇绩创坛作为天使投资人，不仅因为资金，更因为这里能提供宝贵的创业指导。“他们不仅给钱，还请李想、周鸿祎等大佬分享创业干货。”谢伟铎说。

如今，焀谷科技入驻广州首个大模型孵化空间——清智孵化器·琶洲模方。这里不仅是办公场所，更是“超级个体”的加速器。基地提供清华大学的科研资源，免费场地、算力资源以及产业链对接。作为典型的AI OPC（一人公司）企业，烁谷科技仅有三四名核心成员组成的团队，执行力极强，完美契合了广东支持人工智能OPC创新发展的政策导向。

“基地帮我们节省了不少成本，也让技术更快落地。”谢伟铎感慨道。在琶洲模方，像他这样的年轻创业者不再是孤军奋战，而是置身于一个由专家、资本、数据构成的共生生态中。

回国创业后，谢伟铎的AI语音模型通过不停迭代，不仅曾登顶全球第一，如今已获数亿估值，正稳步推进融资事宜，并走上了盈利之路。

成长密码

不被定义的童年，包容成就热爱

回溯谢伟铎的科创成功之路，背后离不开那段被热爱和包容包裹的童年成长经历。

祖籍汕尾，出生于深圳的他，与电脑的缘分始于3岁。“家里的台式电脑摆在客厅，无密码、无禁令，父母的态度是‘随便玩，弄坏了帮忙修’。”谢伟铎的父母都是学中医的，在教育上，他们从未拘泥于“标准答案”，给予他最大限度的自由。

这种开明为兴趣成长提供了沃土：7岁时，谢伟铎在淘宝开网店帮人修电脑，修一次50元，自己管理收入；小学四年级，他参加高中组手机应用开发赛，凭借自研智能家居APP斩获全国第三。而他的电脑、编程知识，全靠自学！

12岁时，他沉迷上了《我的世界》这款游戏，用淘汰电脑搭建游戏服务器，中学时就靠这赚了十几万元。这个阶段，学习压力稍大，他还与父母斗智斗勇，破解电脑密码、通宵摸黑玩游戏，上课常常打瞌睡。

“当时我最怕参加家长会了。”父亲对记者笑着说，老师常建议他没收小谢的电子产品，直言“不然没有前途”。但父亲没有听从，反而以“大表哥”的身份，帮他管理三个2000人的QQ群，走进儿子的世界。“男孩子需要陪伴，才能走进他的内心。”父亲的理解，帮助他度过了这段有点叛逆的青春期，成为他坚持兴趣的底气。

初中后期，谢伟铎又迷上编曲，无专业指导就自己摸索，作品累计播放量已达几个亿，14岁创作的生日单曲播放量累计突破三千万。“我现在做语音，跟编曲有很大关系，都是对声音的感知和打磨。”他说。

初三时，凭借过硬的英语语言功底和积累的计算机等知识，谢伟铎通过中法友好教育项目，前往法国读高中，大学考进巴黎大学计算机系。空闲时间更多，为他捣鼓虚拟主播、研发AI语音模型提供了条件。“我不太算是学习的料，很多东西都是在课外学的。”他坦言，自己成绩不算拔尖，但始终保持好奇心，想到就做。

对于“少年天才”的称呼，谢伟铎很清醒：“这是一条不常规甚至不值得模仿的路线。我把别人上课的时间花在兴趣上，有机缘可能成功，也有风险，不适合所有人。”他认为，父母的包容，是他兴趣得以生根发芽的关键。

【“新”对话】

“悟声”AI语音模型将推出文本生成音乐功能

羊城晚报：近期“悟声”AI语音模型有哪些新进展？

谢伟铎：目前正在打磨优化智能体的表现，系统正在内测新的功能，例如用文字生成音乐、音效的功能，顺利的话本周内可以上线。

羊城晚报：对于想投身科创的年轻人有何寄语？

谢伟铎：希望我的经历能告诉同龄人，只要有兴趣并坚持延展，就有可能实现自我价值。如果有巧妙的点子，第一时间去把它落地，我现在的成果本质上就是我把兴趣延展的这么一个结果。

羊城晚报：你觉得AI语音模型的技术终极是怎么样的？

谢伟铎：全球AI语音的市场规模至少都是千亿美元以上，是非常有前景的一项技术。未来希望能够做到推进人机交互的情感化的终局，达到一个和真人媲美的越过“恐怖谷”的一个水平。

文｜记者黎秋玲

剪辑、包装｜记者余梓涛

拍摄｜记者刘志勇

部分图片由受访者提供

全球小夥技術木幾一線廣東巨頭模型語音謝偉鐸原創新聞悟聲羊城晚報

上一篇：原创假如你是威尔考克斯，你会怎么买人？

下一篇：存储涨价之后，如何让AI走向数据？丨ToB产业观察

力压国际巨头，广东“00后”小伙如何将AI语音模型做到全球第一？｜一线探“新”

相关内容

热门资讯