2025年的全球AI语音圈,发生了一场令人咋舌的“逆袭”。
在被誉为AI“奥林匹克”的HuggingFace的TTS Arena榜单上,一款名为“悟声Vocu V3”的中国AI语音模型,在数万名全球用户的盲测投票中,登顶世界第一。排在其背后的,有美国的Inworld、英国的ElevenLabs等估值百亿美元的国际独角兽,也有阿里、MiniMax等国内知名企业的同类产品。
创造这一奇迹的,是广州烁谷科技公司。更令人意想不到的是,这家公司的掌舵人,竟是一名出生于2002年的“00后”大男孩,他叫谢伟铎。
小伙意气风发,何以凭一己之力带领团队站上全球AI语音的顶峰?这份逆袭背后,藏着怎样一段鲜为人知的科创征程?近日,羊城晚报专访谢伟铎,走进这位“00后”小伙的科创之路。
破局
给AI注入“灵魂”的降维打击
在位于广州海珠区的办公场地,记者见到了谢伟铎:白T恤搭配黑短衬衫,黑框眼镜后是一双清澈明亮的眼睛,谈起计算机与语音模型,他的语速会不自觉加快,手势间满是热忱。面对“AI天才”的赞誉,他却显得异常淡然:“我现在的成果,本质上只是我一直把兴趣往后延展的一个结果。”
“我们的核心优势,就是让AI语音有了‘人味’。”谢伟铎这样概括“悟声”的杀手锏。
在传统的语音合成领域,机械感曾是难以逾越的鸿沟,但“悟声Vocu”打破了这一僵局。它不局限于朗读的角色,更像是一位深谙情感的“配音演员”。它能深度理解文本中的喜怒哀乐,精准演绎哭、笑、歌唱等,仅需3秒的声音样本,就能实现相似度高达95%以上的瞬时克隆。
这种“有温度”的技术,还带来了颠覆性的成本变革。谢伟铎告诉记者,真人配音一分钟动辄数百上千元,而“悟声”将成本压缩至几毛钱,仅为真人配音的千分之一甚至万分之一。从游戏、影视的离线配音,到陪伴类AI助手的在线交互,甚至是呼叫中心的仿真应答,这项技术正以惊人的速度渗透进各个应用场景。
上线短短3个月,“悟声”用户量突破百万,访问量达千万级,并顺利通过了深度合成服务算法备案等。
在谢伟铎看来,全球千亿美元量级的语音市场,终局将是人机交互的情感化——让AI越过“恐怖谷”,真正像人一样说话。
值得一提的是,在安全与合规方面,烁谷科技还构建了“创造—应用—守护”技术闭环,通过自研水印和鉴伪模型,实现AI音频无痕溯源与高精度鉴别,守住科技安全、向善底线。
缘起
为虚拟主播“寻声”引发的创业之路
谢伟铎这场技术革命的火种,最初只是为了满足一个简单的愿望:给自己的虚拟主播“木几萌”找一个好听的声音。
高中时期,谢伟铎就对人工智能充满了好奇。2023年初,在巴黎大学就读的他,利用课余时间自主训练了一个小型AI对话模型,先应用于QQ机器人,后将其接入自制的虚拟主播“木几萌”。没想到,这个能听懂中文抽象梗、能接住网络热词的AI虚拟主僠,在B站迅速走红,粉丝量远超同类竞品。
然而,走红背后藏着尴尬——“木几萌”的声音太僵硬了,“说话像机器人读课文”。谢伟铎翻遍了市面上所有的语音方案,始终没找到一款能匹配“木几萌”灵魂的语音产品。
“既然没有,那就自己做一个。”
没有资金、没有团队,只有一台电脑和一股不服输的劲头。
谢伟铎放弃了大部分娱乐时间,恶补语音合成知识。他尝试用生成式AI架构做语音合成,将声音编码成类似文本的形式,再通过算法还原。“这一新的架构的探索,比字节、阿里等大厂早了一年。”他不无自豪地说道。
2023年秋,正式版本诞生。当搭载新声音的“木几萌”开口说话时,网友们惊呼:“这声音太有人味了!”“用的是哪家的技术?”原本自用的技术意外获得市场的热烈反响,这也成为了烁谷科技的起点。
2024年6月,大二学生谢伟铎做出了人生中重要的决定:休学回国,在广州正式创业。
他选择了百度前CEO陆奇团队的奇绩创坛作为天使投资人,不仅因为资金,更因为这里能提供宝贵的创业指导。“他们不仅给钱,还请李想、周鸿祎等大佬分享创业干货。”谢伟铎说。
如今,焀谷科技入驻广州首个大模型孵化空间——清智孵化器·琶洲模方。这里不仅是办公场所,更是“超级个体”的加速器。基地提供清华大学的科研资源,免费场地、算力资源以及产业链对接。作为典型的AI OPC(一人公司)企业,烁谷科技仅有三四名核心成员组成的团队,执行力极强,完美契合了广东支持人工智能OPC创新发展的政策导向。
“基地帮我们节省了不少成本,也让技术更快落地。”谢伟铎感慨道。在琶洲模方,像他这样的年轻创业者不再是孤军奋战,而是置身于一个由专家、资本、数据构成的共生生态中。
回国创业后,谢伟铎的AI语音模型通过不停迭代,不仅曾登顶全球第一,如今已获数亿估值,正稳步推进融资事宜,并走上了盈利之路。
成长密码
不被定义的童年,包容成就热爱
回溯谢伟铎的科创成功之路,背后离不开那段被热爱和包容包裹的童年成长经历。
祖籍汕尾,出生于深圳的他,与电脑的缘分始于3岁。“家里的台式电脑摆在客厅,无密码、无禁令,父母的态度是‘随便玩,弄坏了帮忙修’。”谢伟铎的父母都是学中医的,在教育上,他们从未拘泥于“标准答案”,给予他最大限度的自由。
这种开明为兴趣成长提供了沃土:7岁时,谢伟铎在淘宝开网店帮人修电脑,修一次50元,自己管理收入;小学四年级,他参加高中组手机应用开发赛,凭借自研智能家居APP斩获全国第三。而他的电脑、编程知识,全靠自学!
12岁时,他沉迷上了《我的世界》这款游戏,用淘汰电脑搭建游戏服务器,中学时就靠这赚了十几万元。这个阶段,学习压力稍大,他还与父母斗智斗勇,破解电脑密码、通宵摸黑玩游戏,上课常常打瞌睡。
“当时我最怕参加家长会了。”父亲对记者笑着说,老师常建议他没收小谢的电子产品,直言“不然没有前途”。但父亲没有听从,反而以“大表哥”的身份,帮他管理三个2000人的QQ群,走进儿子的世界。“男孩子需要陪伴,才能走进他的内心。”父亲的理解,帮助他度过了这段有点叛逆的青春期,成为他坚持兴趣的底气。
初中后期,谢伟铎又迷上编曲,无专业指导就自己摸索,作品累计播放量已达几个亿,14岁创作的生日单曲播放量累计突破三千万。“我现在做语音,跟编曲有很大关系,都是对声音的感知和打磨。”他说。
初三时,凭借过硬的英语语言功底和积累的计算机等知识,谢伟铎通过中法友好教育项目,前往法国读高中,大学考进巴黎大学计算机系。空闲时间更多,为他捣鼓虚拟主播、研发AI语音模型提供了条件。“我不太算是学习的料,很多东西都是在课外学的。”他坦言,自己成绩不算拔尖,但始终保持好奇心,想到就做。
对于“少年天才”的称呼,谢伟铎很清醒:“这是一条不常规甚至不值得模仿的路线。我把别人上课的时间花在兴趣上,有机缘可能成功,也有风险,不适合所有人。”他认为,父母的包容,是他兴趣得以生根发芽的关键。
【“新”对话】
“悟声”AI语音模型将推出文本生成音乐功能
羊城晚报:近期“悟声”AI语音模型有哪些新进展?
谢伟铎:目前正在打磨优化智能体的表现,系统正在内测新的功能,例如用文字生成音乐、音效的功能,顺利的话本周内可以上线。
羊城晚报:对于想投身科创的年轻人有何寄语?
谢伟铎:希望我的经历能告诉同龄人,只要有兴趣并坚持延展,就有可能实现自我价值。如果有巧妙的点子,第一时间去把它落地,我现在的成果本质上就是我把兴趣延展的这么一个结果。
羊城晚报:你觉得AI语音模型的技术终极是怎么样的?
谢伟铎:全球AI语音的市场规模至少都是千亿美元以上,是非常有前景的一项技术。未来希望能够做到推进人机交互的情感化的终局,达到一个和真人媲美的越过“恐怖谷”的一个水平。
文|记者 黎秋玲
剪辑、包装|记者 余梓涛
拍摄|记者 刘志勇
部分图片由受访者提供