西北工业大学ASLP实验室
用户9365
分享
大模型彻底改变语音合成:释放大数据和生成模型的力量
输入“/”快速插入内容
大模型彻底改变语音合成:释放大数据和生成模型的力量
用户6317
用户6317
2023年8月24日修改
在不断发展的人工智能领域,大型语言模型 (LLM) 已成为自然语言处理 (
NLP
) 领域的焦点。 chatGPT 和类似模型的兴起重塑了我们与文本交互的方式,彻底改变了从内容创建到客户服务的一切。 然而,在这股创新浪潮中,语音合成领域尚未出现由大数据训练和生成模型驱动的成熟产品。 这种差异为弥补LLMs和语音合成之间差距的开创性举措铺平了道路。
大规模语音合成模型的挑战
在人工智能不断发展的背景下,大型语言模型(LLM)已成为自然语言处理(
NLP
)领域的中心舞台。 像 chatGPT 这样的模型的出现改变了我们处理文本的方式,从根本上改变了从内容生成到客户支持的各个方面。 然而,即使这波创新浪潮席卷而来,语音合成领域尚未出现由广泛的数据训练和生成模型驱动的完全实现的产品。
语音合成尚未出现高度成功且已建立的大规模模型的原因在于用于语音合成的LLMs的基本性质,其主要涉及生成任务。 我们来深入研究一下大型模型在语音合成领域面临的挑战:
高质量数据
:生成自然且高质量的语音需要大量多样化且具有代表性的数据。 由于录音条件、口音和情绪等问题,获取此类数据具有挑战性,这些问题会严重影响生成语音的真实性。 确保模型接触到广泛的声音表达和语言细微差别对于产生令人信服且类似人类的语音至关重要。
数据覆盖范围
:与可以在各种互联网文本上进行训练的基于文本的LLMs不同,语音合成模型需要专门的音频数据。 收集涵盖多种语言、口音、方言和言语风格的数据是一项复杂的工作。 综合数据的缺乏阻碍了能够满足不同受众需求的大规模模型的开发。
情感需求:
与自然语言处理领域的chatGPT文本生成和输出不同,语音的大规模模型需要更多的情感合成。 由于人类的听觉非常敏感,情感需求较高,训练语音需要相应的情感场景,例如影视配音、戏剧配音。 但这样的数据非常稀缺,因此迫切需要引入这样的合成语音数据。
计算需求
:训练大型生成模型,尤其是语音合成模型,需要大量的计算资源。 语音数据的复杂性涉及具有时间依赖性的音频信号,需要专门的架构和强大的处理能力。 有效处理和生成音频的技术挑战使训练过程进一步复杂化。
微调挑战:由于语音数据的连续性,微调语音合成的生成模型非常复杂。 在真实性和连贯性之间实现适当的平衡,同时避免过度拟合是一项微妙的任务。 需要开发有效的微调技术,以确保模型能够适应不同的说话风格和环境。
缺乏基准:
与
NLP
不同,NLP 的基准和评估指标都很完善,语音合成缺乏评估大规模模型性能的标准化基准。 这使得客观衡量进展和比较不同模型变得困难。
道德和偏见考虑因素:与基于文本的模型类似,语音合成模型可能会无意中产生有偏见或令人反感的内容。 解决生成语音中的道德问题和偏见至关重要,而开发控制输出内容和语气的机制则构成了额外的挑战。
因此,虽然大型语言模型彻底改变了基于文本的
NLP
领域,但语音数据和合成的独特特征所带来的挑战阻碍了语音合成领域同样成功和成熟的模型的出现。
克服这些挑战需要创新的数据收集、预处理、架构设计和微调方法,最终为实现能够满足不同语言和文化背景的大规模语音合成模型铺平道路。 其中,
高质量、大规模、广覆盖的
TTS
数据
是构建大规模语音合成模型的基石。
带情感的大数据赋能大规模语音合成
常见的英语数据集已经变得相当普遍。 为了应对数据覆盖广泛、情感化、高质量、大规模需求的挑战,推动大规模TTS模型的发展,DataOcean推出了两种不常见语言的TTS数据集:
King-TTS-164:泰国女性语音合成语料库(温柔而有力的电影配音)。 该产品记录并注释了6007个句子,音频时长约为6.09小时。 文本内容按情绪分类,如高兴、生气、悲伤等。整个数据库包括录音、校对和相关文件。 该数据集包含大量的情感配音,非常适合训练大规模拟人化情感的
TTS
合成模型。
King-TTS-090:日本多语者语音合成语料库。 该产品共有26位配音员录制标注了8989句句子,音频时长约7.36小时。 文本类型包括新闻、历史、对话等。整个数据库包括录音、校对、音标、韵律标注、声调标注以及相关文档。由于该数据不仅有有文本和录音标注,而且包括各种韵律和音调标注,因此非常适合弥补富有情感的语音合成方面的数据缺失。同时上述两类数据集是属于小语种的稀缺语料库,能够更全面的覆盖数据的应用场景。
上面每个数据集都经过精心策划,涵盖各种语言风格、口音和上下文。 通过提供多种语言、多情感、和风格的综合数据集,DataOcean 旨在支持大规模语音合成模型的开发,以有效满足各种通用语音合成大模型的需求。 这些数据集表明了 DataOcean 致力于推进语音合成领域的发展。
借助 DataOcean 的
TTS
数据集,语音合成领域的研究人员和开发人员现在可以访问大量高质量数据,使他们能够有效地完善和训练生成模型。 这些数据集为创建强大且多功能的语音合成系统提供了基础,这些系统可以模仿自然对话风格、捕捉情感细微差别并适应不同的文化背景。
此外,DataOcean 对质量的承诺确保这些数据集不仅广泛而且一致和可靠。 精心策划的内容使研究人员能够探索大数据驱动的语音合成的潜力,并解决阻碍该领域进步的挑战。
通过提供这些数据集,DataOcean 不仅弥合了语音合成中的挑战和机遇之间的差距,而且还促进了高级语音生成模型的发展。 随着世界朝着更具互动性和沉浸式的人工智能体验迈进,这些数据集为创建尖端语音合成系统提供了必要的构建模块,这些系统可以彻底改变从娱乐和媒体到教育和客户服务等行业。
从本质上讲,DataOcean 的
TTS
数据集为语音合成开辟了新视野,为大规模模型的出现奠定了基础,这些模型可以重塑我们与技术的沟通和交互方式。 借助DataOcean提供的工具和资源,实现高质量、数据驱动的语音合成的旅程现已触手可及,让我们更接近类人合成语音无缝融入我们日常生活的未来。
数据集的具体示例
DataOcean推广的数据集具体示例如下: