Microsoft Research Asia представила новый экспериментальный инструмент искусственного интеллекта под названием VASA-1, который может использовать неподвижное изображение человека (или его рисунок) и существующий аудиофайл для создания из него реалистичного говорящего лица в реальном времени. Он способен генерировать выражения лица и движения головы для существующего неподвижного изображения, а также соответствующие движения губ, соответствующие речи или песне. Исследователи загрузили массу примеров на страницу проекта, и результаты выглядят достаточно хорошо, чтобы обмануть людей, заставив их думать, что они реальны.
Хотя при ближайшем рассмотрении движения губ и головы в примерах все еще могут выглядеть немного роботизированными и рассинхронизированными, все же ясно, что эту технологию можно использовать неправильно, чтобы легко и быстро создавать дипфейковые видеоролики с реальными людьми. Сами исследователи осознают этот потенциал и решили не публиковать «онлайн-демонстрацию, API, продукт, дополнительные детали реализации или любые сопутствующие предложения», пока они не будут уверены, что их технология «будет использоваться ответственно и в соответствии с надлежащими требованиями». нормативно-правовые акты.” Однако они не сказали, планируют ли они реализовать определенные меры безопасности, чтобы не допустить использования злоумышленниками их в гнусных целях, таких как создание дипфейкового порно или кампаний по дезинформации.
Исследователи полагают, что их технология имеет массу преимуществ, несмотря на возможность неправильного использования. Они заявили, что его можно использовать для повышения равенства в образовании, а также для улучшения доступности для людей с проблемами общения, возможно, предоставив им доступ к аватару, который может общаться за них. По их словам, он также может обеспечить общение и терапевтическую поддержку тем, кто в этом нуждается, намекая на то, что VASA-1 может использоваться в программах, предлагающих доступ к персонажам искусственного интеллекта, с которыми люди могут разговаривать.
Согласно документу, опубликованному вместе с объявлением, VASA-1 был обучен на наборе данных VoxCeleb2, который содержит «более 1 миллиона высказываний 6112 знаменитостей», извлеченных из видеороликов YouTube. Несмотря на то, что инструмент был обучен на реальных лицах, он также работает с художественными фотографиями, такими как Мона Лиза, которые исследователи забавно объединили с аудиофайлом вирусной версии Энн Хэтэуэй «Папарацци» Лила Уэйна. Это настолько восхитительно, что его стоит посмотреть, даже если вы сомневаетесь, какую пользу может принести такая технология.
Эта статья содержит партнерские ссылки; если вы нажмете на такую ссылку и совершите покупку, мы можем получить комиссию.