3 秒复制任何人的嗓音，微软音频版 DALL・E 细思极恐_家居生活圈_家装圈

3 秒复制任何人的嗓音，微软音频版 DALL・E 细思极恐

微软推出最新 AI 成果——语音合成模型 VALL·E，它脱胎于 DALL・E，但专攻音频领域。只需 3 秒语音，就能随意复制任何人的声音。

基于 AI「没听过」的声音合成语音，即零样本学习。VALL・E 解决了此前预训练 + 微调模式下，零样本场景导致的生成语音相似度和自然度差的问题。此外，它还同时还支持语音编辑、与 GPT-3 结合的语音内容创建。

VALL・E 还能模仿说话者的多种情绪，包括愤怒、困倦、中立、愉悦和恶心等好几种类型，同时，连说话者的环境背景音也能准确还原。

有网友畅想它可以应用的方向，包括帮助残障人士和别人对话，有声书录制等。