← Вернуться в блог

Что такое OCR: как работает распознавание текста

OCR (Optical Character Recognition) — это технология оптического распознавания символов. Она позволяет компьютеру «читать» текст с изображений: фотографий, отсканированных документов, скриншотов и превращать его в редактируемый цифровой текст. В этой статье разберём, как работает OCR, какие виды распознавания бывают и где эта технология применяется.

Как работает OCR

Современная OCR-система проходит несколько этапов:

  1. Предобработка изображения. Изображение переводится в чёрно-белый формат, убирается шум, корректируется яркость и контраст, выравнивается наклон текста.
  2. Сегментация. Алгоритм разбивает изображение на отдельные строки, слова и символы. Например, находится граница между буквами, чтобы понять, где заканчивается одна и начинается другая.
  3. Распознавание. Каждый символ сравнивается с эталонными шаблонами или анализируется нейросетью — определяется конкретная буква, цифра или знак.
  4. Постобработка. Результат проверяется по словарю: исправляются опечатки, восстанавливаются неоднозначные символы, формируется связный текст.

Виды OCR

Тип Описание Примеры
Шаблонный OCR Сравнивает символ с заранее заготовленными шаблонами шрифтов Ранние OCR-системы, FineReader в простых режимах
Нейросетевой OCR Использует свёрточные нейросети (CNN) и рекуррентные сети (RNN) для распознавания Tesseract 5+, Google Lens, облачные OCR-сервисы
OCR на основе Transformer Современные модели, которые понимают контекст слова целиком, а не отдельные буквы TrOCR (Microsoft), GPT-4 Vision
Handwriting OCR Специализируется на распознавании рукописного текста Google Handwriting Recognition, MyScript

Где применяется OCR

Технология распознавания текста используется повсеместно:

Tesseract: самая популярная open-source OCR

Tesseract — это движок распознавания текста с открытым исходным кодом, который начинался как проект HP в 1985 году, а с 2006 года развивается под управлением Google. Сегодня это одна из самых точных бесплатных OCR-библиотек.

Ключевые особенности Tesseract:

Именно Tesseract.js используется в ImgTranslate: весь процесс распознавания происходит в вашем браузере, изображение никуда не отправляется и не хранится на сервере.

Браузерный OCR: Tesseract.js

Отдельного внимания заслуживает Tesseract.js — это Tesseract, скомпилированный в WebAssembly и JavaScript. Он запускается в любом современном браузере без установки.

Преимущества браузерного OCR:

Единственный минус — размер: Tesseract.js весит около 2.5 МБ, так как включает полную языковую модель и словари. Однако для одноразового распознавания это допустимо.

Как перевести текст с фото с помощью OCR

Чтобы распознать текст на изображении и перевести его на другой язык, достаточно выполнить три шага:

  1. Загрузите фото — перетащите изображение в окно переводчика или выберите файл на компьютере. Поддерживаются JPG, PNG, WebP.
  2. Выберите язык — укажите язык оригинала и язык перевода. OCR автоматически определит символы, даже если язык не поддерживается напрямую.
  3. Получите результат — нажмите «Перевести». Через несколько секунд вы получите распознанный текст и его перевод.

Попробуйте перевести текст с фото онлайн бесплатно на ImgTranslate — без регистрации и ограничений.

Заключение

OCR — это зрелая технология, которая за последние годы шагнула далеко вперёд благодаря нейросетям. Сегодня любой пользователь может распознать текст с фото за секунды прямо в браузере — бесплатно и с сохранением приватности. ImgTranslate использует именно такой подход: Tesseract.js работает локально, а перевод выполняется через цепочку AI-провайдеров для максимального качества.

Читайте также

Как перевести текст с фото: пошаговая инструкция онлайн Как улучшить качество распознавания текста: 10 советов Лучшие сервисы для распознавания текста: сравнение 2026