Как нейросеть Pyramid Flow задает новый стандарт генерации видео
Исследователи из Пекинского университета, компании Kuaishou Technology и Пекинского университета почты и коммуникаций представили новую модель машинного обучения Pyramid Flow, предназначенную для генерации видео. Код модели открыт для всех пользователей.
Pyramid Flow способна создавать 10-секундные видео в разрешении 768p с частотой 24 кадров в секунду. Модель поддерживает два режима работы: text-to-video и image-to-video. Разработчики сообщили, что для обучения нейросети использовались открытые датасеты, а обучение длилось 20 тысяч GPU-часов с применением графических ускорителей Nvidia A100.
По результатам тестирования, Pyramid Flow показывает более высокие результаты по сравнению с другими открытыми моделями для генерации видео, такими как Kling и Gen-3 Alpha. Более того, команда провела сравнительные тесты с участием более 20 человек, где респонденты чаще отмечали плавность видео, сгенерированных этой моделью.
Все модели доступны на платформе Hugging Face, где также опубликовано демоприложение для тестирования. Инструкции по запуску можно найти на GitHub.