logo

Soul App升级语音大模型跨次元通话

作者:很菜不狗2024.12.03 00:01浏览量:9

简介:Soul App上线自研端到端全双工语音通话大模型,实现与虚拟人实时语音通话,提供超真实声音表达和情绪感知理解能力,为用户带来跨次元对话体验。

在数字化与人工智能技术飞速发展的今天,社交平台Soul App(以下简称“Soul”)再次引领潮流,通过其自研的语音大模型,为用户带来前所未有的跨次元对话体验。近日,Soul宣布其语音大模型“伶伦”再次升级,并成功上线了自研端到端全双工语音通话大模型,这一创新技术不仅打破了现实与虚拟的界限,更让用户在社交体验上迈出了重要一步。

自2016年上线以来,Soul始终致力于以创新的技术方案和产品设计,不断拓展社交体验的边界。声音作为传递信息和情感的重要媒介,在社交中扮演着至关重要的角色。Soul深刻理解这一点,因此,在AI技术的推动下,Soul率先探索AI与社交的融合,特别是在语音技术方面取得了显著进展。2020年,Soul系统启动AIGC的技术研发工作,并在智能对话、语音技术、虚拟人等AIGC关键技术能力上取得了前沿的技术积累。

此次升级的“伶伦”语音大模型,包括了语音生成大模型、语音识别大模型、语音对话大模型以及音乐生成大模型等多个方面,支持真实音色生成、语音DIY、多语言切换以及多情感拟真人实时对话等能力。这些功能不仅让用户在社交中拥有更多个性化的选择,更在情感表达上实现了质的飞跃。例如,在Soul的“AI苟蛋”、站内狼人游戏“狼人魅影”AI语音实时互动以及独立新产品“异世界回响”等场景中,“伶伦”已经展现出了其强大的应用潜力。

而新上线的自研端到端全双工语音通话大模型,更是将Soul的语音技术推向了一个新的高度。这一模型具备超低交互延迟、快速自动打断、超真实声音表达和丰富情绪感知理解能力等特点,能够直接理解丰富的声音世界,支持超拟人化的多风格语言,实现更接近生活日常的交互对话和“类真人”的情感陪伴体验。在实际应用中,用户在与“异世界回响”中的虚拟人进行实时语音通话时,可以感受到延迟时间明显少于行业平均水平,真正实现了即时的AI交流和陪伴。

值得一提的是,Soul自研的端到端语音通话大模型在情感理解方面也表现出色。它不仅能够给予情感关怀、理解人声情绪情感并给出有温度的回应,还能够理解物理世界的声音场景,如模拟物理世界动物声音、理解多人聊天内容等。这种能力使得Soul的语音大模型在社交场景中更加贴近用户的真实需求,提供了更加丰富和自然的交互体验。

此外,Soul还通过一系列趣味社交玩法和活动,如“Soul次元歌手”、“懒人KTV”以及“AI帮你出灵魂专辑”等,进一步丰富了用户的社交体验。这些活动不仅让用户能够打造自己的AI歌手分身、实现“唱歌自由”,还能够通过AI技术创作出个性化的音乐作品,满足了用户在社交和娱乐方面的多元化需求。

随着大模型竞赛的焦点从模型参数延伸至具体应用场景,Soul将继续围绕用户的实际使用场景和核心社交需求,不断提升技术能力。从AI推荐关系到AI辅助对话,从降低表达门槛到提升互动体验,Soul将持续推进AIGC技术与社交场景的深度融合,实现AI原生社交场景的创新。未来,Soul还将拓展更多场景,让用户可以与AI进行更加有温度、沉浸、趣味的互动交流,进一步提升社交体验。

在Soul看来,人机互动已然成为年轻人中的社交新趋势。通过自研的语音大模型和端到端全双工语音通话技术,Soul正在为用户打造一个更加真实、自然、有趣的跨次元社交世界。在这个世界里,用户可以与虚拟人进行实时语音通话,享受即时的AI交流和陪伴,让社交变得更加简单和美好。而这一切的背后,离不开Soul对技术创新的不断追求和对用户需求的深刻理解。

总之,Soul自研端到端语音通话大模型的上线,不仅标志着Soul在语音技术方面的又一次重大突破,更为用户带来了前所未有的跨次元对话体验。在未来,Soul将继续以用户需求为导向,以技术创新为驱动,不断推动社交体验的提升和拓展,为用户创造更多价值。

相关文章推荐

发表评论