Мультимодальные модели ИИ начали активно появляться в 2023 году и сразу стали популярными, ведь взаимодействие с ними очень похоже на общение людей между собой. Разбираемся, что из себя представляют такие нейросети, где используются и чем отличаются от традиционных.
Мультимодальные модели ИИ — это класс нейросетей, которые способны воспринимать, обрабатывать и/или генерировать различные типы данных одновременно. Модальность может подразумевать текст, аудио, видео, изображения. Такие модели еще ближе к принципам работы мозга человека, ведь мы тоже способны воспринимать информацию, поступающую от разных органов чувств.
Главная особенность мультимодальных моделей в том, что они умеют формировать единое векторное пространство для нескольких модальностей — это дает возможность сопоставлять различные типы данных и рассуждать между ними. Например, вы можете попросить такую нейросеть дать описание какой-то картинки или, наоборот, создать изображение по текстовой инструкции.
Резюмируя, мультимодальные нейронные сети могут решать больший набор задач относительно отдельных унимодальных моделей ИИ.
Главный принцип работы мультимодального искусственного интеллекта заключается в том, что они умеют переводить разные типы данных в единый, понятный для себя формат — в векторы. Это позволяет таким системам сравнивать и связывать между собой любую информацию: тексты, аудио, картинки и так далее.
Когда пользователь отправляет запрос, например, картинку и текст, нейросеть создает два вектора: тот, что описывает смысл текста и тот, что описывает изображенное на картинке. Грубо говоря, векторы похожих текстов и изображений будут приближены друг другу, а разных — отличаться друг от друга. На этом этапе ПО уже «понимает» смысл данных, которые ему передали, и начинает связывать модальности между собой. В итоге нейронная сеть определяет, в чем заключался вопрос пользователя — она может сгенерировать ответ на него.
Обучают мультимодальный ИИ с использованием огромного массива пар данных в формате «текст — картинка», «текст — видео», «текст — аудио» и так далее. Результатом становится нейросеть, способная сопоставлять и рассуждать на основе разных типов информации (как это делает человек), а также понимать, как устроен мир.
Обучение LLM строится по такому алгоритму:
Далее LLM становится доступна пользователям, но ее создатели продолжают работать над улучшениями.
В основе метода лежит объединение двух и более моделей (как правило, унимодальных). Рассмотрим пример создания мультимодальной нейросети для генерации изображений, состоящей из двух различных моделей. Одна из них умеет воспринимать и обрабатывать текст — она принимает инструкции пользователей. Дополнительно текстовую модель обучают создавать запросы ко второй системе — генератору картинок. В итоге получается такая схема: пользователь просит нейросеть нарисовать, например, мегаполис → нейросеть составляет запрос, передает его генератору картинок → пользователь получает результат. Например, так работает GigaChat, объединенный с Kandinsky.
Плюсы подхода:
Но есть большой минус: два отдельных инструмента будут плохо обмениваться информацией между собой. Модель, которая генерирует картинки, сможет получить только небольшой текстовый запрос от первой нейросети, но она не специализируется на работе с текстами, поэтому может упустить детали.
Это противоречит классическому пониманию мультимодальности, когда цельная система может воспринимать несколько типов данных и обрабатывать их комплексно, а не по частям.
Подразумевает единую модель, которая принимает различные модальности и сразу же генерирует ответ без обращения к другим системам — здесь нет «посредников». Такие нейросети изначально обучаются на всех необходимых типах данных, чтобы создать взаимосвязи между несколькими модальностями. Обычно разметчики создают набор данных, состоящий из пар (например, «текст — картинка» или «текст — видео»).
Плюсы подхода:
Главный недостаток метода — высокая цена и длительность разработки. Данные для обучения должны быть качественными, также требуются большие вычислительные мощности.
Это нечто среднее между двумя предыдущими методами. В рамках подхода разработчики берут два ПО с разными модальностями и создают связь между ними. Но если в первом методе нейросети «общались» между собой текстом, здесь они обмениваются данными через векторные представления.
Рассмотрим такую нейронную сеть на уже знакомом примере создания системы для генерации изображений. Первым компонентом будет большая языковая модель, которая отвечает за взаимодействие с пользователем. Ее не требуется серьезно дообучать, поскольку она изначально умеет вести диалог. Разработчикам нужно лишь научить ее «понимать» информацию, переданную адаптером — компонентом, который объединяет две модели. Адаптер обучать нужно — обычно для этого используют пары «картинка — описание» или «картинка — диалог». Третьим компонентом будет генератор изображений, который непосредственно выполняет запрос пользователя. Его дообучать также не нужно: он уже умеет создавать картинки.
В итоге схема работы выглядит так: пользователь просит нейросеть нарисовать мегаполис → она создает векторное представление текста и передает его адаптеру → адаптер делает представление понятным для генератора картинок → пользователь получает результат, а нейросеть — описание картинки от адаптера, чтобы иметь возможность продолжить диалог об изображении.
Плюсы подхода:
Если адаптер плохо обучен, он не сможет точно передавать смысл из одной модальности в другую — это потенциальный минус метода.
Мультимодальный ИИ активно используют в различных отраслях, например:
Это лишь несколько примеров использования мультимодальных моделей ИИ — на самом деле их гораздо больше. Кроме того, люди могут просто развлекаться с использованием таких нейросетей. Например, для многих удивительно и интересно, что система создает любую картинку в течение нескольких секунд по текстовому описанию. Еще мультимодальные модели ИИ используются для обучения: можно загрузить фотографию уравнения и попросить нейросеть объяснить решение или вставить аудио иностранной речи, чтобы попросить расшифровку или перевод. Также такие системы помогают людям с ограниченными возможностями здоровья. Например, слабовидящий человек может загрузить картинку, а ИИ опишет ее настолько подробно, что в голове человека соберется полный образ.
Главное отличие традиционного (унимодального) ИИ от мультимодального в том, что первый может работать только с одним типом входных данных: только текст, звук, изображения и так далее. Во втором случае система может принимать на вход и объединять несколько различных модальностей.
Другие различия описали в таблице ниже.
| Традиционный искусственный интеллект | Мультимодальный искусственный интеллект | |
|---|---|---|
| Задача | Решение конкретных однотипных задач в рамках одной модальности. Например, сервис для распознавания речи | Восприятие и генерация контента из различных типов данных (решение большого набора задач). Используется для создания голосовых помощников, систем мультимодального поиска, беспилотных автомобилей. |
| Обучение | Быстрое, более дешевое | Длительное, дорогое (необходимы большие затраты человеческих ресурсов, разработка сложной архитектуры) |
| Интерпретируемость и объяснимость | Относительно высокая - человек может предположить причины ошибок | Низкая, поэтому поведение системы непрозрачное |
| Тип входных данных | Только один: текст, изображение, видео или аудио | Может принимать разные модальности |
| Пользовательский опыт | Для взаимодействия с системой можно использовать один из стандартных для человека форматов | Человек может общаться с системой в привычном формате: использовать визуальные, текстовые, звуковые данные |
| Главное преимущество | Относительно легкое проектирование и внедрение - низкая цена | Возможность получения наиболее полной информации за счет обработки различных типов данных |
| Главный недостаток | Ограниченное понимание, узкая специализация систем | Более сложная разработка, необходимость больших вычислительных мощностей - высокая цена |
Мультимодальные модели ИИ обладают способностью к восприятию и обработке разных типов данных, поэтому могут формировать полноценное представление о мире и глубоко понимать суть диалога. Такое поведение достигается использованием большого набора пар данных в нескольких форматах при обучении.
Они более универсальные, чем традиционные системы, но требуют больших затрат времени и денег на разработку. Существенный недостаток мультимодального искусственного интеллекта в том, что их могут использовать злоумышленники для причинения вреда жертвам.
В будущем такие нейросети могут принести человечеству еще больше пользы: ускорить развитие бизнеса, успешно диагностировать заболевания на ранних стадиях, стать полноценным источником достоверных знаний и так далее.
Появление и развитие технологии — это шаг к разработке AGI — универсального ИИ, способного решать любую задачу на уровне человека за счет самообучения.