解码“AI孙悟空”的“吉林基因”
吉林
吉林 > 资讯 > 正文

解码“AI孙悟空”的“吉林基因”

2025年大阪世博会正在进行中。在中国馆里,随着“你好,悟空!”的召唤,大屏幕上,动画片《大闹天宫》里经典的孙悟空形象腾云驾雾而来。

“听说中国有很多美景,你能介绍一下吗?”一位日本游客问道。只见“AI孙悟空”眼睛一眨,用日语娓娓道来……它化身中国宣传大使,在中、日、英三国语言间自由切换,与不同游客开怀畅谈。

本次世博会,中国馆展出了“嫦娥五号”“嫦娥六号”月壤样本、“蛟龙”号体验舱等顶尖科技成果。作为馆中唯一的大模型展项,“AI孙悟空”以卓越的语言交互能力,向世界递出中国AI创新名片。这背后,科大讯飞东北亚研究院作为研发主力,为“AI孙悟空”镌刻上了鲜明的“吉林基因”。

当今世界,AI大模型无疑是新质生产力的先锋代表。在这股强劲的智能浪潮中,吉林何以有如此惊艳的一笔?

创新突破:前沿技术打造“智能大圣”

走进科大讯飞东北亚研究院,门口是虚拟人一体机的AI导览员。当精准识别到来访者面部后,对话便开启了。它能在多人同时说话时准确识别出对方的声音,并给出恰当回应。“‘AI孙悟空’应用的也是这项技术。”院长孙庆华说。

作为多语种大模型技术负责人,孙庆华自豪地表示,神话中的孙悟空神通广大,“AI孙悟空”也不逊色,它在语音识别、合成、交互等方面均代表着世界前沿水平。

“场馆里人声嘈杂,比我们刚才在AI向导那里测试的情况要复杂得多,但‘AI孙悟空’依然能精准识别出提问对象,这背后是高噪场景语音识别技术。在噪声比人声大很多的场景下,它的识别准确率仍能达到85%以上。”孙庆华介绍。

“AI孙悟空”高度还原了86版《西游记》前5集中孙悟空的配音演员李世宏的音色。“我们运用了语音大模型音色解耦技术,仅用少量本人语音就能实现高质量复刻。而且这个技术还能和语言实现解耦,可以让‘AI孙悟空’用同样的音色说不同语言。”孙庆华说。

事实上,这两项技术去年已经在科大讯飞多轮产品发布会上得以展示。本次大阪世博会,“AI孙悟空”展示的核心是多语种大模型对话技术,而这一技术正是由东北亚研究院牵头完成的。

科大讯飞东北亚研究院自2021年成立以来,在多语种数据和技术上完成了大量积累。2022年底,科大讯飞开展大模型技术攻关,东北亚研究院充分发挥多语种优势,迅速跟进研究。随后,讯飞星火多语种大模型发布,支持英语、日语、韩语、俄语、阿拉伯语、西班牙语等,此后又多次迭代;2024年,讯飞星火大模型V4.0发布,星火语音大模型发布74个语种方言“自由对话”,破解强干扰场景下语音识别难题,实现高准确率。

“AI孙悟空”基于一个家喻户晓的神话形象,语气、个性都要彰显角色特点。对此,东北亚研究院科研团队基于多语种大模型强大的理解能力,在多轮对话、角色扮演等方面进行了增强。最终,一个个性鲜明、精通多国语言、有问必答的“AI孙悟空”惊艳亮相。

“多模态虚拟人交互技术不是简单地把几个技术串在一起就能实现的。科大讯飞深耕语音技术多年,能将多模态感知、认知、生成等技术深度融合,由此才能带来媲美真人的交互体验。这也是本次大阪世博会人工智能技术展项选择我们的重要原因。”孙庆华说。

落子吉林:“地缘+资源”激活创新引擎

作为中国人工智能“国家队”成员,近年来,科大讯飞在全国积极布局研究院,调动各地优势资源,从不同方向发力,共同描绘中国大模型产业版图。东北亚研究院从一开始就锚定了多语种人机交互技术研发工作。

“近年来,我们先后承接了多个多语种语义理解方向的国家级、省级科研任务,14个语种的语义理解技术彻底解决了‘卡脖子’问题。”孙庆华介绍。2024年,以科大讯飞为第一完成单位的“多语种智能语音关键技术及产业化”项目荣获国家科学技术进步奖一等奖。

在孙庆华看来,吸引科大讯飞落子吉林的优势条件有很多,例如:吉林处于东北亚地理中心位置,是中国面向东北亚开放的重要窗口,多种语言交流频繁;高校众多,汇聚了一大批优秀的语言人才和人工智能研发人才。多年来,东北亚研究院与吉林大学等高校积极开展产学研合作,协同创新,携手并进。

“落户吉林后,从人才引进政策,到研发成果鼓励,政府部门给我们提供了大力支持。在我们的研发团队中,既有北大、清华、浙大、哈工大等国内名校毕业生,也有东京大学、新加坡国立大学等国外名校人才。我们凭借先进的技术成果和广阔的发展空间,正在吸引更多高学历的科技型人才留吉、来吉就业,目前研究院人数已超百人。”孙庆华说。

研究院成立伊始,毕业于吉林大学人工智能专业的程庆就加入进来,全程参与了多语种大模型的研发,如今已晋升为项目经理。“‘AI孙悟空’被选中在大阪世博会亮相,是对我们研发成果的充分肯定。目前,我们还在继续优化多语种大模型,争取在相关技术上始终跑在世界前列。”程庆说。

智领未来:大模型驱动产业向“新”生长

随着新一轮科技革命和产业变革向纵深推进,以认知大模型为代表的人工智能技术正在重塑生产方式、优化产业结构、提升生产效率。

值得注意的是,基于吉林产业特点,东北亚研究院还内设了智能汽车研发中心和行业智能化研发中心,在车载产品的研发与落地、智慧教育及智慧政法行业应用等方向上有明显侧重,逐渐与其他研究院形成了差异化发展格局。

研究院与中国一汽集团建立了联合实验室,在智能座舱研发上成果丰硕。包括降噪、消回音、声纹识别、语音唤醒、语音合成在内的全链路语音交互系统应用于红旗、奔腾等品牌,市场占有率接近100%。目前,双方正在积极探讨智能驾驶领域的合作。

东北亚研究院充分利用在多语种大模型上的技术优势,率先将自主可控的星火大模型深度融入汽车座舱系统,为汽车赋予了具备深度语言理解能力和复杂任务处理能力的智慧大脑。与包括一汽红旗在内的近20家车企开展合作,支持语种逐渐拓展至涵盖全球主流市场的25种语言,持续助力中国汽车出海。

此外,东北亚研究院与中国科学院先导项目研发了14个重点语种的导航、智能家居等15个头部技能,实现交互效果国际领跑;此外,行业智能化研发中心与省法院联合打造移动办案系统,为1800余名法官提供智能伴随式移动服务,平均使用率超过97%,帮助法官提高了办案效率。

在AI大模型赋能千行百业的时代背景下,吉林的优势产业、新兴产业,不断为东北亚研究院带来新机遇、新课题。在以多语种大模型技术为基础推动产业智能化转型的赛道上,我们有理由相信,将有更多惊艳的创新成果,从吉林走向世界。(王丹 徐慕旗)

来源:吉林省人民政府网站