Synthetic voices, as unique as fingerprints
1低资源语音识别
得益于深度学习的快速发展,语音识别系统的准确率取得了大幅提升,语音输入、语音搜索以及语音交互等产品已经逐步达到了实用门槛。但是,要想真正实现语音识别系统在各种场景中更自然、更便利、更高效的应用,仍然面临对低资源场景覆盖等诸多的挑战。本次报告将从语音预训练、多模态识别、说话人自适应等角度,解析低资源场景语音识别的解决方案.
2.A Journey towards Speech Foundational Model and Speech Augmented Large Language Model
构建大规模语音基础模型的动机包括使用无标签语音数据学习获得更好性能、利用大量多语种数据处理低资源任务以及多任务语音处理需求等,挑战之处在于可拓展的(scalable)模型架构、训练损失函数和可拓展的数据收集和清洗方式。USM模型是第一个将语音-文本联合自训练提升到超大规模的一个尝试。为了降低训练USM的代价,Canary模型采用了一个完全开源的大规模多任务监督训练方案,该模型利用128张A100(80GB)GPU训练,每个epoch耗时6分钟,总共12.8小时,每天训练85K小时数据,已集成在NVIDIA NeMo 工具包。
3.Towards Speech Large Language Model for Zero-shot Speech Synthesis and Translation
微软亚洲研究院团队如何利用编解码器(Codec)得到的token构建语音大语言模型的一系列探索。为了将连续的语音信号转换为离散的token,从而可以像构建语言大模型那样构建语音大模型,VALL-E模型通过神经网络编解码器(Neural Codec)将语音信号转换为token,并基于此构建大模型。基于独立解码器(decoder-only) 框架和大规模多样的训练数据,VALL-E展现出了强大的上下文学习(In-context learning)能力,能够基于极短的语音片段复制未曾在训练数据中出现过的任意说话人的声音。