Команда Fundamental AI Research (FAIR) от Meta представила новую линейку моделей аудиовизуального поведения, которые направлены на развитие технологий человеческого взаимодействия. Эти модели создают мимические движения и жесты на основе аудиовизуальной информации от двух людей, стремясь к созданию более естественных и интерактивных виртуальных агентов. Они позволяют создавать полнотелесные аватары как в 2D видео, так и в 3D Codec Avatars, что может изменить технологии телеприсутствия в виртуальной и дополненной реальности.
Моделирование естественной динамики общения: набор данных для бесперебойного взаимодействия
В поддержку этой работы Meta выпускает набор данных Seamless Interaction Dataset, обширную коллекцию, включающую более 4000 часов взаимодействий двух человек с участием более 4000 уникальных участников. Этот набор данных фиксирует разнообразные, личные динамики общения, предоставляя основы для аудиовизуальных моделей поведения для понимания и генерации социального поведения, схожего с человеческим.
Общение между людьми включает постоянную адаптацию речи, интонации и жестов, этот процесс часто описывается как танец общения. Моделирование диадической (двухсторонней) динамики разговоров требует понимания взаимодействия вокальных, вербальных и визуальных сигналов, а также межличностных поведений, таких как слушание, визуальная синхронизация и смена ролей. Dyadic Motion Models от Meta стремятся преобразовать речь, будь то она создана человеком или языковыми моделями, в полнотелесные жесты и активные поведенческие модели слушания. Эти возможности могут создать виртуальных агентов, которые участвуют в социальных взаимодействиях с человеческой выразительностью в иммерсивных средах.
Технические детали и инновации
Аудиовизуальные (AV) Dyadic Motion Models, представленные Meta, могут совместно генерировать мимические движения и жесты тела на основе аудиовходов от двух людей или речи, сгенерированной крупными языковыми моделями (LLM). Эти модели визуализируют эмоции, жесты и движения, подразумеваемые разговорами, создавая как говорящие, так и слушающие поведения, а также подсказки для смены ролей.
Включая визуальные входы наряду с аудио, модели учатся синхронизированным подсказкам, таким как зеркальные улыбки или совместный взгляд, обогащая реализм генерируемых взаимодействий. Модели также включают параметры управляемости, позволяя пользователям или дизайнерам регулировать выразительность аватара. Эта гибкость может быть косвенно направляемой выходом LLM, предоставляя визуальное направление модели движения.
Кроме того, модели выводят промежуточные коды движения лица и тела, позволяя адаптацию к целому ряду приложений, включая генерацию 2D видео и анимацию 3D Codec Avatars. Лаборатория Codec Avatars от Meta внесла вклад в базовые эталонные реализации и наборы данных, чтобы помочь исследовательскому сообществу в продвижении метрики телеприсутствия.
Создание набора данных
Seamless Interaction Dataset является крупнейшей известной коллекцией высококачественных личных взаимодействий двух человек, фиксирующей одновременно мимические и телесные сигналы. Основанный на современных психологических теориях, набор данных охватывает более 4000 часов аудиовизуальных взаимодействий с более чем 4000 участниками. Он включает около 1300 диалоговых и активностных подсказок, включая натуралистичное, импровизированное и сценарное содержание, чтобы охватить широкий эмоциональный спектр, начиная от удивления и разногласий до решимости и сожаления.
Примерно треть записей включает знакомые пары (семья, друзья, коллеги), позволяя исследовать поведение, основанное на отношениях, в то время как другая треть включает профессиональных актеров, изображающих различные роли и эмоции. Все сеансы записывались лично, чтобы сохранить качества воплощенного взаимодействия, избегая ограничений удаленной, видеобазированной связи.
В дополнение к исходным записям, набор данных предлагает богатую контекстуализацию с уровнями отношений участников, метаданными личности и почти 5000 видеоаннотаций.
Методология оценки
Вместе с набором данных Meta опубликовала технический отчет, подробно описывающий методологию и результаты исследований. Отчет предлагает методологию оценки, включающую как субъективные, так и объективные метрики, помогая оценить прогресс аудиовизуальных моделей поведения. Протокол оценки фокусируется на поведении говорящих, слушающих и смене ролей, предлагая ориентир для будущих исследований в этой новой области.
Конфиденциальность, этика и меры безопасности
Meta делает акцент на конфиденциальность, этику и качество данных на протяжении всего процесса исследований. Участники дали согласие на запись взаимодействий, им было рекомендовано избегать передачи личной информации, и они участвовали в сценарных сеансах, когда это было необходимо для минимизации рисков раскрытия. Многоступенчатый процесс обеспечения качества, объединяющий человеческую проверку, анализ транскриптов и видеоинспекцию языковых моделей, использовался для обнаружения и удаления чувствительных материалов или персонально идентифицируемой информации.
Кроме того, Meta использует технологии водяных знаков AudioSeal и VideoSeal для встраивания скрытых сигналов в генерируемый контент, обеспечивая прослеживаемость и аутентичность даже после постобработки.
Будущее развитие
Dyadic Motion Models и Seamless Interaction Dataset представляют собой значительные шаги к развитию социальных технологий, которые улучшают повседневную жизнь, предоставляют развлечения и способствуют взаимодействию. Приверженность Meta ответственным практикам ИИ направлена на построение доверия и предоставление технологий, приносящих пользу всем. Компания с нетерпением ждет, как исследовательское сообщество воспользуется набором данных и техническим отчетом, чтобы расширить границы социального ИИ.
Интересно, как далеко могут зайти такие технологии в будущем. Возможность создать настолько реалистичных виртуальных агентов может кардинально изменить наше восприятие взаимодействия в виртуальной среде. Надеюсь, что это развитие будет идти рука об руку с этическими нормами.