Компания Microsoft представила VALL-E — алгоритм на основе искусственного интеллекта, который умеет имитировать голос любого человека, прослушав трёхсекундный семпл. Его исходного кода пока нет в свободном доступе, но компания уже поделилась десятком образцов работы ИИ, по которым можно оценить качество синтезированной речи.

Алгоритм принимает пример голоса и текст, и в результате выдаёт озвучку текста

В сети доступны инструменты копирования голоса на основе примеров, но обычно для обучения им нужно несколько минут исходных материалов, чтобы начать выдавать похожие примеры. Уникальность VALL-E состоит в том, что алгоритму достаточно трёхсекундного образца голоса и текста, который нужно превратить в речь. По заявлению разработчиков, программа способна имитировать даже те эмоции и тон говорящего, примера которых не было в образце.

В основе VALL-E — нейросеть, обученная на 60 000 часах разговорной английской речи. Microsoft не уточняет, появится ли алгоритм в открытом доступе. Узнать больше о механизме работы ИИ можно в исследовании Корнелльского университета, а примеры «озвучки» доступны на GitHub. Ранее Microsoft представила переводчик для Skype, который умеет имитировать голос собеседника в реальном времени.

Источник: 4PDA.

0 нравится

0 не нравится

Loading ...

Поделись ссылкой с друзьями

Нейросеть научилась имитировать голос человека после трёх секунд обучения

Автор поста

Рекомендуем посмотреть

Вы должны быть зарегистрированы для написания комментариев.