在人工智能迅猛发展的今天,语音交互技术已成为提升用户体验的重要手段。趣丸科技,作为国内领先的AI语音技术提供商,近日发布了其自主研发的开源语音大模型——MaskGCT,旨在革新语音交互体验,推动人工智能技术的普及与应用。
一、MaskGCT模型介绍
MaskGCT(Masked Generative Codec Transformer)是趣丸科技与香港中文大学(深圳)联合研发的开源语音大模型。该模型采用了掩码生成模型与语音表征解耦编码的创新范式,具有以下特点:
1. 创新技术范式
MaskGCT模型的核心在于其创新的技术范式。它采用非自回归掩码生成Transformer,无需文本与语音的对齐监督和音素级持续时间预测。这种创新的技术范式使得模型在语音质量、相似度和可理解性方面优于当前最先进的TTS模型。
2. 超逼真的声音克隆
MaskGCT模型具备秒级超逼真的声音克隆能力。只需提供3秒音频样本,即可复刻人类、动漫、耳边细语等任意音色,并能完整复刻语调、风格和情感。
3. 精细可控的语音生成
MaskGCT模型支持灵活调整生成语音的长度、语速和情绪。用户可通过编辑文本编辑语音,并保持韵律、音色等方面的极度一致。
4. 高质量多语种语音数据集
MaskGCT模型在训练过程中,采用香港中文大学(深圳)和趣丸科技等机构联合推出的10万小时数据集Emilia进行训练。该数据集是全球最大且最为多样的高质量多语种语音数据集之一,精通中英日韩法德6种语言的跨语种合成。
二、MaskGCT应用场景
MaskGCT模型在多个领域拥有丰富的应用场景,包括:
1. 短剧出海
MaskGCT模型可应用于短剧出海,为用户提供逼真的语音效果,提升用户体验。
2. 数字人
MaskGCT模型可应用于数字人领域,为数字人提供逼真的语音交互体验。
3. 智能助手
MaskGCT模型可应用于智能助手领域,提升智能助手的语音交互能力。
4. 有声读物
MaskGCT模型可应用于有声读物领域,为用户提供高质量的语音体验。
5. 辅助教育
MaskGCT模型可应用于辅助教育领域,为学习者提供个性化的语音辅导。
三、趣丸科技在语音交互领域的布局
趣丸科技在语音交互领域拥有深厚的技术积累和丰富的实践经验。近年来,公司积极布局语音交互领域,致力于为用户提供更优质的语音体验。
1. 趣丸千音平台
趣丸科技推出的趣丸千音平台,集成文本转语音、视频翻译、声音克隆、多语种多音色合成等能力,是业界首个从模型到应用全面赶超国际先进水平的AI语音产品。
2. 联合实验室
趣丸科技与香港中文大学(深圳)共建联合实验室,针对人工智能音频大模型相关的前沿课题进行研究,旨在突破行业难题,促进产学研深度融合。
3. 开源策略
趣丸科技积极推动开源策略,将MaskGCT模型开源,旨在促进人工智能语音技术的发展,为全球用户提供更优质的语音交互体验。
总之,趣丸科技首推开源语音大模型MaskGCT,将革新语音交互体验,推动人工智能技术的普及与应用。未来,趣丸科技将继续致力于语音交互领域的研究,为用户带来更多惊喜。
