2 декабря 2024

Нейросети для распознавания текста: 5 лучших сервисов

Команда Conversion

8673

Нейросети развиваются быстрее, чем меняется ситуация в мире. Если раньше основным затыком для искусственного интеллекта было количество пальцев на человеческих руках и буквы вне зависимости от языка, то теперь как минимум с одной проблемой нейросети стали справляться намного лучше. В сегодняшней подборке собрали работающие нейросети для распознавания текста: посмотрим, какие сервисы существуют на рынке и кто из них справляется лучше всего.

Топ-5 нейросетей для распознавания текста

OCR

OCR — бесплатный сервис для онлайн-распознавания текста. А все, что бесплатное, мы ценим, любим и тестируем. Алгоритмы ИИ помогают распознавать даже плохо написанный текст, способствуя лучшему пониманию объекта. Нейронка поддерживает 20 языков, включая русский и английский. Можно использовать любой тип изображения: скан документов, фото с низким разрешением — OCR способен распознать даже рукописные математические формулы.

Какие инструменты предлагает сервис:

Первым делом попробовали перевести планы на день нашего контент-менеджера, написанные от руки, — задачка со звездочкой, почерк не из самых понятных (шутки про врачей мы уже слышали).

Как выглядит фото заметки:

Как справилась нейросеть для распознавания текста:

Ну что сказать — очень близко, нужно только немного подредактировать. Из интересных наблюдений — вы можете загрузить в OCR только изображения формата JPG, PDF и PNG, а вот JPEG сервис не пропустил, пришлось переконвертировать. Также файлы должны весить до 5 мб, если у вас хорошая камера или объемный документ — понадобятся сервисы для сжатия.

Давайте попробуем просканировать PDF-файл. Мы решили воспользоваться функцией и загрузить одну страницу из нашего файла с подборкой нейросетей для интернет-маркетологов (его можно найти здесь).

Что загрузили:

Результат был неожиданным — нейросеть не опознала на фото текст:

Ну что сказать, ожидали мы большего. А вот когда загрузили этот же файл, но в формате PNG, вышло куда лучше:

Вывод: OCR — неплохая нейросеть для распознавания текста, но вот для работы с PDF лучше поискать другой сервис.

Florence-2

Florence-2 — модель визуального языка от Microsoft, которая помогает распознавать объекты и текстовую составляющую на изображениях. Помимо распознавания текста, нейронка способна давать текстовое описание изображения. Если вы работаете в сфере маркетинга или связаны с продвижением товаров — сервис точно вам пригодится. Нейросеть для распознавания текста находится на платформе HuggingFace, что позволяет использовать сервис бесплатно.

Мы решили загрузить изображение с сумкой и выбрали «‎Task prompt — More detailed caption» и посмотреть, что нам сгенерирует ИИ. Что у нас вышло:

Для того чтобы распознать текст, нужно выбрать функцию «‎Task prompt — OCR»:

Также у нейросети для распознавания текста есть функция «‎Task prompt — OCR with Region». Этот вариант предназначен извлекать текстовую составляющую из определенных областей изображения и отлично пригодится для сканирования документов, в том числе бухгалтерских отчетов.

Большинство статей с обзорами Florence-2 давали как пример такой результат:

Но нейросети не всегда работают идеально, поэтому мы решили загуглить первый попавшийся финансовый отчет и просканировать его в сервисе. Вышло не очень — ИИ напечатал кучу непонятных чисел и текст, который находится на картинке:

Играться с отчетами тут не рекомендуем, разве что если вручную подготовить таблицу и воспользоваться CTRL+C и CTRL+V.

Google Lens

Google Lens — это приложение для iOS и Android, способное распознать объект на фотографии. Вам нужно скачать утилиту, открыть и навести камеру на предмет или выбрать изображение из галереи.

Если вам понравился предмет декора, техника или одежда — сервис поможет подобрать альтернативы без необходимости ввода запроса вручную. С Google Lens можно переводить документы, вывески и все, что только может понадобиться в режиме реального времени — такие нейросети для распознавания текста помогут упростить пребывание в путешествиях. Также сервис поможет справиться с задачами, подсказывая необходимый порядок действий (вот бы у нас в школе было подобное приложение, решебники ушли бы на второй план). А если вы завзятый натуралист или любитель собак — функция распознавания растений и пород животных вам точно понравится.

Для проверки работоспособности сервиса мы загрузили изображение с текстом на английском языке, а заодно решили потом проверить определение пород собак по фото, и вот что у нас вышло:

Google Lens отлично справляется с текстовым переводом. Рабочая лошадка для каждодневного использования, если вы изучаете языки или хотите проверить мануал к технике, которую недавно приобрели. Не везде добавляют русский язык, к сожалению, но выход есть.

SmartBuddy

SmartBuddy — сервис, который работает с изображением, текстовой составляющей, диаграммами и документами. Он способен создавать диаграммы по описанию, интерактивные доски с графиками и картинками, генерировать креативы, переводить на разные языки, а самое главное — распознавать текст.

Чтобы воспользоваться интересующей нас функцией, необходимо авторизоваться через Google, Яндекс почту или VK. Далее мы попадаем на главную нейронки и выбираем «‎Распознать текст с изображения». Для тестирования снова выбрали изображение из нашего файла с подборкой нейросетей для интернет-маркетологов (его можно найти здесь):

Интересная особенность — несмотря на выбор нужной функции, вам все равно необходимо написать текстовый запрос для SmartBuddy, и за каждый лишний символ промпта у вас будут сниматься токены. Размер загружаемого изображения не должен превышать 1 мб. Нейросеть работает с большим количеством форматов, включая PDF, Word, Excel, TXT, JPEG, PNG и пр.

Мы использовали запрос «Напечатай текст с изображения», потратив на него 10 токенов, и загрузили картинку:

Результат стоил нам 1628 токенов.

Также есть возможность экспортировать диалог в PDF или Word, это будет выглядеть так:

Мы загуглили первый попавшийся финансовый отчет в виде изображения, загрузили его в нейросеть и попросили напечатать текст, сохранив вид таблицы (спойлер — ничего не вышло).

Исходная картинка:

Результат:

Опять же, воспользоваться функцией для таблиц можно разве что для CTRL+C и CTRL+V.

Нейросеть не бесплатная, но дает токены при регистрации для тестирования функционала. Единой цены за услуги сервиса нет, поскольку он насчитывает большое количество ИИ-моделей, и за каждую выходит разная сумма. Подробнее с ценами вы можете ознакомиться тут.

Microsoft Lens

Microsoft Lens — это PDF-сканер в формате приложения, которое можно скачать для iOS и Android. Нейросеть для распознавания текста помогает обрабатывать, улучшать и делать более читабельным сканируемый текст на изображениях и документах. Он может преобразовывать картинки в файлы Excel, Word, PDF и PowerPoint в режиме онлайн — вам лишь нужно сфотографировать текст или загрузить его с галереи устройства. И самое приятное — сервис полностью бесплатный.

Мы решили попробовать написать еще один список задач от руки в блокноте, чтобы проверить сервис. При загрузке изображения можно наложить фильтр, обрезать, повернуть, добавить рукописную заметку и текст на картинку. Microsoft Lens поддерживает около 30 языков для извлечения текста.

Результат нашего распознавания не увенчался успехом — сервис достаточно плохо работает с записками от руки:

Так что трансформировать свои рукописные конспекты в текстовый формат тут вряд ли получится на должном уровне. Но мы не сдаемся и попробуем сделать фото первой главы книги Мика Геррона «Хромые кони» и отсканировать ее:

Вот это уже другое дело, отличный результат. Но помните, что хороший исходник для сервиса — гарант хорошей работы, а это значит, что нужно сфотографировать документ при дневном свете или воспользоваться вспышкой. Если изображение все равно осталось затемнено — воспользуйтесь встроенным редактором на телефоне и увеличьте яркость изображения. Отличная нейросеть для распознавания текста в печатном виде, а главное — бесплатная.

Вывод

Нейросети для распознавания текста — необходимая вещь, которая всегда должна быть под рукой, если вы работаете с документами. Не всегда есть возможность воспользоваться сканером, а вот сделать фото на свой смартфон или скачать изображение, чтобы не перепечатывать все вручную, могут все. Сервисы, о которых мы написали выше, не всегда идеальны, но большинство точно справятся с печатным текстом, ну а заметки на бумаге рекомендуем переносить уже вручную. А для удобства всегда можно воспользоваться приложениями вроде Notion для ведения рабочих и повседневных задач.

Статья в тему: Чем заменить Notion — лучшие аналоги приложения

Вам была полезна эта статья?

ОпубликованКоманда Conversion

Интернет-медиа про маркетинг и арбитраж трафика