ym97433607
Мультимодальные модели ИИ

Мультимодальные модели искусственного интеллекта

18 минут на чтение
31 октября 2025

Мультимодальные модели ИИ начали активно появляться в 2023 году и сразу стали популярными, ведь взаимодействие с ними очень похоже на общение людей между собой. Разбираемся, что из себя представляют такие нейросети, где используются и чем отличаются от традиционных.

Что такое мультимодальные модели искусственного интеллекта

Мультимодальные модели ИИ  это класс нейросетей, которые способны воспринимать, обрабатывать и/или генерировать различные типы данных одновременно. Модальность может подразумевать текст, аудио, видео, изображения. Такие модели еще ближе к принципам работы мозга человека, ведь мы тоже способны воспринимать информацию, поступающую от разных органов чувств.

Главная особенность мультимодальных моделей в том, что они умеют формировать единое векторное пространство для нескольких модальностей  это дает возможность сопоставлять различные типы данных и рассуждать между ними. Например, вы можете попросить такую нейросеть дать описание какой-то картинки или, наоборот, создать изображение по текстовой инструкции.

Резюмируя, мультимодальные нейронные сети могут решать больший набор задач относительно отдельных унимодальных моделей ИИ.

Как работают мультимодальные модели ИИ?

Главный принцип работы мультимодального искусственного интеллекта заключается в том, что они умеют переводить разные типы данных в единый, понятный для себя формат  в векторы. Это позволяет таким системам сравнивать и связывать между собой любую информацию: тексты, аудио, картинки и так далее.

Когда пользователь отправляет запрос, например, картинку и текст, нейросеть создает два вектора: тот, что описывает смысл текста и тот, что описывает изображенное на картинке. Грубо говоря, векторы похожих текстов и изображений будут приближены друг другу, а разных  отличаться друг от друга. На этом этапе ПО уже «понимает» смысл данных, которые ему передали, и начинает связывать модальности между собой. В итоге нейронная сеть определяет, в чем заключался вопрос пользователя  она может сгенерировать ответ на него.

Обучают мультимодальный ИИ с использованием огромного массива пар данных в формате «текст  картинка», «текст  видео», «текст  аудио» и так далее. Результатом становится нейросеть, способная сопоставлять и рассуждать на основе разных типов информации (как это делает человек), а также понимать, как устроен мир.

Как обучают большие языковые модели

Обучение LLM строится по такому алгоритму:

  1. Сбор данных. Речь идет об очень больших массивах информации  их собирают с сайтов, из книг, статей, технических документаций, репозиториев с кодом и прочих источников. Сюда же добавляют открытые датасеты. Все тексты проходят фильтрацию и нормализацию, чтобы нейросети было удобнее «понимать» их. При этом качество собранных данных может быть относительно низким.
  2. Предобучение (pretraining). Модель получает доступ к массиву данных из первого пункта и начинает обрабатывать его. На этом этапе нейросеть еще ничего не знает, разработчики также не объясняют ей эту информацию. LLM просто проводит статистический анализ текстов, чтобы выявить слова и фразы, которые чаще всего встречаются рядом в конкретном языке. То есть она ищет закономерности и учится предсказывать наиболее вероятное продолжение (слово, знак, фразу) предыдущего контекста. В итоге система создает свою внутреннюю логику, можно сказать, отдаленный аналог мышления человека.
  3. Дообучение (fine-tuning). Когда LLM научилась продолжать текст, она получает новый набор данных в формате пар «вопрос  ответ». Цель этапа  сделать так, чтобы нейросеть выдавала ожидаемые ответы на запросы пользователей. Объем информации здесь меньше, чем на этапе предобучения, однако ее качество должно быть выше. В том числе по этой причине созданием обучающих пар занимаются разметчики.
  4. Обучение с подкреплением на основе обратной связи от человека (RLHF). В ходе этого этапа разработчики вручную исправляют ответы нейросети, чтобы она выдавала желаемые результаты на каждый запрос. Они должны быть достоверными, безопасными, этичными и полезными. В итоге нейронная сеть учится, например, предупреждать пользователей об опасности каких-то действий, общаться вежливо, работать с чувствительными темами.
  5. Тестирование. Здесь рассчитываются различные метрики для оценки безопасности, достоверности и других критериев ответов нейросети. Если результаты плохие, ПО дорабатывают.

Далее LLM становится доступна пользователям, но ее создатели продолжают работать над улучшениями.

Подходы к созданию мультимодальных нейросетей

Tool-augmented LLM

В основе метода лежит объединение двух и более моделей (как правило, унимодальных). Рассмотрим пример создания мультимодальной нейросети для генерации изображений, состоящей из двух различных моделей. Одна из них умеет воспринимать и обрабатывать текст  она принимает инструкции пользователей. Дополнительно текстовую модель обучают создавать запросы ко второй системе  генератору картинок. В итоге получается такая схема: пользователь просит нейросеть нарисовать, например, мегаполис нейросеть составляет запрос, передает его генератору картинок пользователь получает результат. Например, так работает GigaChat, объединенный с Kandinsky.

Плюсы подхода:

  • относительно высокая скорость разработки (нужно только интегрировать две независимые нейросети);
  • упрощенная работа над обновлением нейронной сети за счет модульности;
  • дообучение практически не нужно.

Но есть большой минус: два отдельных инструмента будут плохо обмениваться информацией между собой. Модель, которая генерирует картинки, сможет получить только небольшой текстовый запрос от первой нейросети, но она не специализируется на работе с текстами, поэтому может упустить детали.

Это противоречит классическому пониманию мультимодальности, когда цельная система может воспринимать несколько типов данных и обрабатывать их комплексно, а не по частям.

End-to-End multimodal LLM

Подразумевает единую модель, которая принимает различные модальности и сразу же генерирует ответ без обращения к другим системам  здесь нет «посредников». Такие нейросети изначально обучаются на всех необходимых типах данных, чтобы создать взаимосвязи между несколькими модальностями. Обычно разметчики создают набор данных, состоящий из пар (например, «текст  картинка» или «текст  видео»).

Плюсы подхода:

  • глубокая интеграция модальностей  система умеет воспринимать и обрабатывать их целостно;
  • более высокая точность ответов.

Главный недостаток метода  высокая цена и длительность разработки. Данные для обучения должны быть качественными, также требуются большие вычислительные мощности.

Modality-bridging with pretrained models

Это нечто среднее между двумя предыдущими методами. В рамках подхода разработчики берут два ПО с разными модальностями и создают связь между ними. Но если в первом методе нейросети «общались» между собой текстом, здесь они обмениваются данными через векторные представления.

Рассмотрим такую нейронную сеть на уже знакомом примере создания системы для генерации изображений. Первым компонентом будет большая языковая модель, которая отвечает за взаимодействие с пользователем. Ее не требуется серьезно дообучать, поскольку она изначально умеет вести диалог. Разработчикам нужно лишь научить ее «понимать» информацию, переданную адаптером  компонентом, который объединяет две модели. Адаптер обучать нужно  обычно для этого используют пары «картинка  описание» или «картинка  диалог». Третьим компонентом будет генератор изображений, который непосредственно выполняет запрос пользователя. Его дообучать также не нужно: он уже умеет создавать картинки.

В итоге схема работы выглядит так: пользователь просит нейросеть нарисовать мегаполис она создает векторное представление текста и передает его адаптеру адаптер делает представление понятным для генератора картинок пользователь получает результат, а нейросеть  описание картинки от адаптера, чтобы иметь возможность продолжить диалог об изображении.

Плюсы подхода:

  • хорошее соотношение качества и затрат на разработку;
  • нужны меньшие вычислительные мощности относительно end-to-end;
  • модульность  систему проще обновлять.

Если адаптер плохо обучен, он не сможет точно передавать смысл из одной модальности в другую  это потенциальный минус метода.

Начинайте творить
Не забудьте отключить VPN

Где используют мультимодальные модели ИИ

Мультимодальный ИИ активно используют в различных отраслях, например:

  • Медицина. Нейросеть объединяет изображения (снимки УЗИ, МРТ и др.) с текстовой или аудиоинформацией, чтобы решать разные задачи, например, предполагать диагноз. Сейчас ученые тестируют такие системы, а врачи получают от них дополнительную информацию и оценивают достоверность ответов. То есть пока медицинский ИИ строго контролируется докторами, но в будущем, возможно, он станет более «самостоятельным» в диагностике и лечении заболеваний.
  • Маркетинг. Здесь искусственный интеллект помогает анализировать и предсказывать поведение клиентов, а также генерировать контент. Сейчас значимая доля мер по продвижению компаний связана с интернетом: соцсетями, сайтами и т. д. Поэтому маркетологам или контент-менеджерам удобно иметь AI-помощника, который будет следить за трендами, создавать изображения, продающие, информационные тексты, сценарии для коротких видео, рекламные ролики.
  • Чат-боты. Некоторые компании до сих пор используют унимодальный искусственный интеллект, в то время как другие организации переходят на мультимодальные, чтобы создать больший комфорт для клиентов. В целом чат-боты созданы для снижения нагрузки на службу поддержки и быстрой реакции на проблемы пользователей. И только мультимодальный ИИ может приблизиться к уровню живого специалиста поддержки.

Это лишь несколько примеров использования мультимодальных моделей ИИ  на самом деле их гораздо больше. Кроме того, люди могут просто развлекаться с использованием таких нейросетей. Например, для многих удивительно и интересно, что система создает любую картинку в течение нескольких секунд по текстовому описанию. Еще мультимодальные модели ИИ используются для обучения: можно загрузить фотографию уравнения и попросить нейросеть объяснить решение или вставить аудио иностранной речи, чтобы попросить расшифровку или перевод. Также такие системы помогают людям с ограниченными возможностями здоровья. Например, слабовидящий человек может загрузить картинку, а ИИ опишет ее настолько подробно, что в голове человека соберется полный образ.

Чем мультимодальные ИИ отличаются от традиционных?

Главное отличие традиционного (унимодального) ИИ от мультимодального в том, что первый может работать только с одним типом входных данных: только текст, звук, изображения и так далее. Во втором случае система может принимать на вход и объединять несколько различных модальностей.

Другие различия описали в таблице ниже.

Традиционный искусственный интеллектМультимодальный искусственный интеллект
ЗадачаРешение конкретных однотипных задач в рамках одной модальности. Например, сервис для распознавания речиВосприятие и генерация контента из различных типов данных (решение большого набора задач). Используется для создания голосовых помощников, систем мультимодального поиска, беспилотных автомобилей.
ОбучениеБыстрое, более дешевоеДлительное, дорогое (необходимы большие затраты человеческих ресурсов, разработка сложной архитектуры)
Интерпретируемость и объяснимостьОтносительно высокая - человек может предположить причины ошибокНизкая, поэтому поведение системы непрозрачное
Тип входных данныхТолько один: текст, изображение, видео или аудиоМожет принимать разные модальности
Пользовательский опытДля взаимодействия с системой можно использовать один из стандартных для человека форматовЧеловек может общаться с системой в привычном формате: использовать визуальные, текстовые, звуковые данные
Главное преимуществоОтносительно легкое проектирование и внедрение - низкая ценаВозможность получения наиболее полной информации за счет обработки различных типов данных
Главный недостатокОграниченное понимание, узкая специализация системБолее сложная разработка, необходимость больших вычислительных мощностей - высокая цена

Плюсы мультимодального ИИ

  • Полноценное восприятие информации. Мультимодальный ИИ интегрирует разные источники и форматы данных  этот способ максимально приближен к человеческому восприятию: например, мы можем одновременно видеть человека и понимать его речь. Благодаря мультимодальности сохраняется гибкость системы (если изображение некачественное, она может уловить смысл по приложенному тексту), также она лучше понимает контекст.
  • Универсальность. Одна модель может решать разные задачи: отвечать на вопросы пользователя, генерировать изображения, писать музыку и так далее.
  • Качество ответов. Совместная обработка нескольких типов данных позволяет модели предоставлять ожидаемые ответы на запросы пользователей.
  • Удобство взаимодействия для пользователя. Человек может общаться с системой так же, как с другими людьми: писать тексты, показывать картинки, говорить. Такой формат понятен для человека  он помогает наиболее точно сформулировать запрос к системе и получить понятный ответ на него.

Минусы мультимодальных моделей в ИИ

  • Высокая цена. Мультимодальные модели имеют сложную архитектуру и требуют больших вычислительных мощностей. Обучение и настройка таких систем занимает много времени  для этого нужно собрать большой объем качественных мультимодальных пар.
  • Сложная интерпретация. Специалистам очень трудно понять, почему ИИ связал, например, конкретное слово с частью изображения. При этом разработчикам нужно понять логику работы нейросети, чтобы улучшить ее, снизить риски ошибок, предвзятости, нарушения правил этики, опасных ответов и так далее.
  • Безопасность. Мультимодальные модели ИИ используют в том числе для создания дипфейков  поддельных изображений, видео, аудио. Иногда это не приносит вреда, однако есть случаи, когда фейковый контент применяют мошенники. Они могут создавать компрометирующие дипфейки с целью шантажа, рекламный контент с известными личностями для обогащения или подменять голоса знакомых своих жертв, чтобы попросить их о переводе денег или совершении других действий.

Подведем итоги

Мультимодальные модели ИИ обладают способностью к восприятию и обработке разных типов данных, поэтому могут формировать полноценное представление о мире и глубоко понимать суть диалога. Такое поведение достигается использованием большого набора пар данных в нескольких форматах при обучении.

Они более универсальные, чем традиционные системы, но требуют больших затрат времени и денег на разработку. Существенный недостаток мультимодального искусственного интеллекта в том, что их могут использовать злоумышленники для причинения вреда жертвам.

В будущем такие нейросети могут принести человечеству еще больше пользы: ускорить развитие бизнеса, успешно диагностировать заболевания на ранних стадиях, стать полноценным источником достоверных знаний и так далее.

Появление и развитие технологии  это шаг к разработке AGI  универсального ИИ, способного решать любую задачу на уровне человека за счет самообучения.

Оцените статью
Ещё по теме
СберБанк обрабатывает Cookies с целью персонализации сервисов и для того, чтобы пользоваться сайтом было удобнее. Вы можете запретить обработку Cookies в настройках браузера. Пожалуйста, ознакомьтесь с политикой использования Cookies
Подробно рассказываем, как CберБанк обрабатывает и защищает ваши данные на странице Sber Bank Privacy