19 мая компания Google на конференции Google I/O 2026 представила новую серию моделей Gemini Omni, позиционируемых как генеративные медиамодели, способные «создавать всё на основе любого ввода данных». В настоящее время основной акцент сделан на видеоконтенте. Gemini Omni объединяет способности Gemini к логическим рассуждениям с возможностями генерации мультимедийного контента: в качестве исходных данных могут использоваться изображения, аудио, видео и текст одновременно. С помощью естественного языка можно создавать высококачественные видеоролики; при этом каждая последующая команда редактирования накладывается на предыдущую, образ персонажа остаётся неизменным, а физические законы соблюдаются на протяжении всего диалога. Улучшена способность модели к интуитивному моделированию физических процессов (гравитация, кинетическая энергия, гидродинамика), а также доступ к знаниям Gemini в таких областях, как история, наука и культура, что позволяет сочетать повествование с реальным смыслом изображений. Ранее в прошлом году Google выпустила модель Nano Banana, обеспечившую умные функции Gemini для генерации и редактирования изображений; Gemini Omni стала её полноценным продолжением в сфере видео.
Первая версия — Gemini Omni Flash — с сегодняшнего дня доступна всем подписчикам Google AI Plus, Pro и Ultra по всему миру через приложение Gemini и инструмент для создания видео Google Flow; также бесплатно предлагается в YouTube Shorts и приложении YouTube Create. В ближайшие недели модель будет открыта для разработчиков и корпоративных пользователей посредством API. В будущем планируется добавить поддержку генерации изображений и аудио; функция редактирования звука пока находится на стадии оценки безопасности и временно недоступна. Что касается безопасности, то во всех видео, созданных с помощью Omni, автоматически встраивается невидимый цифровой водяной знак SynthID, проверяемый в приложении Gemini, Chrome и поисковике Google. Кроме того, Google запустила функцию «Цифровой аватар», позволяющую создавать видео с изображением и голосом самого пользователя; в настоящее время компания тщательно изучает вопрос расширения возможностей редактирования аудио.