Представьте: преподаватель на паре показывает презентацию с важной информацией, которая точно пригодится на экзамене. Вы не успеваете всё записать, но делаете фото, чтобы потом спокойно перевести в текст и добавить в конспект. Или коллега присылает снимок документа, а вам нужно его отредактировать. Перепечатывать — долго, особенно если там несколько страниц.
В таких ситуациях выручают нейросети для распознавания текста из изображения. Загружаете фото и через пару секунд получаете исходник, с которым можно работать: редактировать, переводить, сокращать, пересылать.
В этой статье разберёмся, как устроена функция распознавания текста с изображения с помощью искусственного интеллекта, кому это может пригодиться и какие нейросети справляются с задачей лучше всего.
Когда вы загружаете изображение в нейросеть, алгоритмы считывают расположение текста на фото, разбивают его на строки и символы и переводят в цифровой вид.
Всё это возможно благодаря технологии машинного обучения — ИИ заранее «натренировали» на тысячах картинок с текстом, чтобы он мог узнавать буквы и слова даже в сложных условиях: с перекосами, бликами, нестандартными шрифтами или размытым фоном. А если почерк аккуратный — можно извлечь и рукописный текст.
Некоторые сервисы выдают результат в виде обычного документа, другие — в формате таблицы. Это удобно, если вы, например, оцифровываете расписание, заполненный бланк или лист с расчётами.
Попробовали несколько популярных сервисов и собрали пять, которые справляются с задачей быстро и без лишних сложностей. Все они работают онлайн, не требуют установки и подходят для самых разных сценариев — от конспектов до квитанций.
Это универсальная бесплатная нейросеть, подходящая для распознавания текста на фото.
Сервис может обработать печатный или рукописный текст — если почерк достаточно разборчивый. Поддерживаются файлы во всех популярных форматах, включая png, jpg и pdf. Нейросеть подходит для извлечения текста из изображений, сканов, скриншотов и фотографий с телефона.
Среди плюсов — удобный интерфейс и поддержка текстов на русском языке. Распознавание работает корректно даже при неидеальном освещении или с углом съёмки под наклоном. К тому же, ИИ правильно расставляет знаки препинания, даже если в исходном документе их нет.
Помимо этого, GigaChat умеет сохранять извлечённый текст в нужном формате — у вас сразу будет готовый файл, который можно распечатать или переслать.
Чтобы извлекать текст с изображения, не нужно ничего устанавливать. Нейросеть доступна бесплатно в браузере, а обработка загруженных файлов займёт пару секунд.
Прилагаем простую инструкцию:
Для теста мы выбрали договор о материальной ответственности сотрудника: часто документы присылают в виде картинки или PDF, которые нельзя изменить.
GigaChat за пару секунд распознал текст и прислал нам вариант, который мы можем редактировать и дорабатывать прямо в чате. При этом он сохранил форматирование — выделил заголовок жирным, как в исходном документе.
Функция будет полезна для студентов, офисных сотрудников, исследователей — всех, кому нужно быстро извлекать текст из картинок без потери времени.
Мультисервис, который распознаёт текст на изображениях и присылает его в чат. Чтобы получить результат, нужно нажать на соответствующую подсказку — например, «Извлечь текст с изображения».
Скачать или отредактировать ответ нельзя, но можно скопировать и работать с ним в стороннем редакторе, либо попросить нейросеть внести корректировки в чате. Может обработать почти все популярные форматы, включая JPG, PNG и PDF.
Сервис хорошо справляется с качественными сканами и печатным текстом, согласует написанное с правилами русского языка. Знает несколько языков, в том числе английский, арабский и китайский. При распознавании текста сохраняет структуру: разделение по абзацам, списки и разрывы строк.
К результату нашего теста вопросов нет — распознавание фото прошло без ошибок, все знаки препинания оказались в точности, как на картинке.
Это онлайн-сервис с ИИ для распознавания текста по фото. Работает прямо в браузере, без регистрации. Поддерживает стандартные форматы вроде JPG, PNG и PDF. Интерфейс минималистичный: загружаете файл или прикладываете ссылку и нажимаете кнопку.
Проверим, как он справится с нашим заданием:
Во-первых, генерация заняла 10 секунд — для документа в хорошем качестве это не очень быстро. Во-вторых, полученный текст отображается в маленьком окошке, поэтому читать его неудобно — на экран умещается лишь 3-4 строки и придётся постоянно скроллить. В-третьих, скачать результат можно только в одном формате — txt. То есть, скорее всего, его придётся прогонять через конвертер, чтобы было удобно редактировать.
Справедливости ради отметим, что сам текст ИИ распознал корректно: все слова и знаки препинания на месте. OCR.best подойдёт, если нужно оцифровать короткие документы, заметки, объявления. Правда, редактировать распознанное прямо в окне сервиса нельзя — для этого понадобится сторонний редактор.
Простой бесплатный сервис для извлечения текста из изображений. Работает онлайн, регистрироваться не нужно.
Всё максимально просто: загружаете файл и получаете текст. Можно вставить фотографию с компьютера или по ссылке. Поддерживаются стандартные форматы — JPG, PNG и другие.
Распознавание текста с помощью ИИ прошло быстро — результат был готов за 5 секунд. Изначально ответ нам снова выдали в маленьком окне, но с при нажатии специальной кнопки можно развернуть документ на весь экран.
Возможностей для редактирования мало — можно только скорректировать написание, а, например, изменить начертание нельзя. При скачивании доступен один формат — txt.
Инструмент подойдёт для разовых задач: скопировать надпись с таблички, вытащить текст из скрина, быстро оцифровать страницу. Результат можно скопировать и вставить куда нужно. Дополнительных функций вроде форматирования, автоперевода или распознавания рукописного текста тут нет — зато всё просто и понятно.
Ещё один онлайн-инструмент, который позволяет извлекать текст из изображения за пару кликов. Интерфейс максимально простой: загружаете или переносите файл в специальное окно, дополнительных настроек нет.
Снова сталкиваемся с тем, что результат не очень дружелюбно выглядит — видно буквально несколько строк, расширить экран нельзя. Но есть возможность выгрузить готовый текст в .doc, поэтому отредактировать можно уже в стандартной программе.
Подойдёт тем, кому нужно быстро вытащить текст из скана, скрина или фото. Настроек и дополнительных функций почти нет, но со своей задачей сервис справляется без лишнего шума.
Все нейросети из подборки справились с задачей — преобразовать изображение в текстовый формат оказалось проще, чем кажется. Точность распознавания у всех сервисов была на хорошем уровне: сервисы быстро находили текст, разбивали его по строкам и символам, а результат почти не требовал правки.
Если стоит вопрос не только в «распознать», но и быстро продолжить работу с текстом — отредактировать, перевести, переслать, — лучше подойдёт GigaChat. Там модель распознавания идёт в паре с удобным интерфейсом и гибкими настройками.