Что такое OCR: как работает распознавание текста

3 июня 2026

OCR (Optical Character Recognition) — это технология оптического распознавания символов. Она позволяет компьютеру «читать» текст с изображений: фотографий, отсканированных документов, скриншотов и превращать его в редактируемый цифровой текст. В этой статье разберём, как работает OCR, какие виды распознавания бывают и где эта технология применяется.

Как работает OCR

Современная OCR-система проходит несколько этапов:

Предобработка изображения. Изображение переводится в чёрно-белый формат, убирается шум, корректируется яркость и контраст, выравнивается наклон текста.
Сегментация. Алгоритм разбивает изображение на отдельные строки, слова и символы. Например, находится граница между буквами, чтобы понять, где заканчивается одна и начинается другая.
Распознавание. Каждый символ сравнивается с эталонными шаблонами или анализируется нейросетью — определяется конкретная буква, цифра или знак.
Постобработка. Результат проверяется по словарю: исправляются опечатки, восстанавливаются неоднозначные символы, формируется связный текст.

Виды OCR

Тип	Описание	Примеры
Шаблонный OCR	Сравнивает символ с заранее заготовленными шаблонами шрифтов	Ранние OCR-системы, FineReader в простых режимах
Нейросетевой OCR	Использует свёрточные нейросети (CNN) и рекуррентные сети (RNN) для распознавания	Tesseract 5+, Google Lens, облачные OCR-сервисы
OCR на основе Transformer	Современные модели, которые понимают контекст слова целиком, а не отдельные буквы	TrOCR (Microsoft), GPT-4 Vision
Handwriting OCR	Специализируется на распознавании рукописного текста	Google Handwriting Recognition, MyScript

Где применяется OCR

Технология распознавания текста используется повсеместно:

Оцифровка документов — сканирование книг, договоров, архивных материалов в редактируемый текст.
Распознавание номеров — автомобильные номера на камерах, штрихкоды на складах.
Перевод текста с фото — сервисы вроде ImgTranslate распознают текст на изображении и переводят его на другой язык.
Автоматизация ввода данных — приём чеков, визиток, банковских выписок.
Доступность — чтение текста с картинок для людей с ограничениями зрения (screen readers).

Tesseract: самая популярная open-source OCR

Tesseract — это движок распознавания текста с открытым исходным кодом, который начинался как проект HP в 1985 году, а с 2006 года развивается под управлением Google. Сегодня это одна из самых точных бесплатных OCR-библиотек.

Ключевые особенности Tesseract:

Поддерживает более 100 языков, включая русский, английский, арабский, китайский и редкие языки.
Работает на основе LSTM-нейросети (Long Short-Term Memory) — рекуррентной сети, обученной на тысячах размеченных изображений.
Есть версии для Python, Node.js (Tesseract.js — запускается прямо в браузере), C++, Java.
Не требует подключения к интернету — всё распознавание выполняется локально.

Именно Tesseract.js используется в ImgTranslate: весь процесс распознавания происходит в вашем браузере, изображение никуда не отправляется и не хранится на сервере.

Браузерный OCR: Tesseract.js

Отдельного внимания заслуживает Tesseract.js — это Tesseract, скомпилированный в WebAssembly и JavaScript. Он запускается в любом современном браузере без установки.

Преимущества браузерного OCR:

Приватность. Фото обрабатывается на устройстве пользователя — никакие данные не уходят на сервер.
Бесплатно. Вам не нужно платить за облачные API или за серверные мощности.
Не требует регистрации. Пользователь просто открывает сайт и загружает фото.

Единственный минус — размер: Tesseract.js весит около 2.5 МБ, так как включает полную языковую модель и словари. Однако для одноразового распознавания это допустимо.

Как перевести текст с фото с помощью OCR

Чтобы распознать текст на изображении и перевести его на другой язык, достаточно выполнить три шага:

Загрузите фото — перетащите изображение в окно переводчика или выберите файл на компьютере. Поддерживаются JPG, PNG, WebP.
Выберите язык — укажите язык оригинала и язык перевода. OCR автоматически определит символы, даже если язык не поддерживается напрямую.
Получите результат — нажмите «Перевести». Через несколько секунд вы получите распознанный текст и его перевод.

Попробуйте перевести текст с фото онлайн бесплатно на ImgTranslate — без регистрации и ограничений.

Заключение

OCR — это зрелая технология, которая за последние годы шагнула далеко вперёд благодаря нейросетям. Сегодня любой пользователь может распознать текст с фото за секунды прямо в браузере — бесплатно и с сохранением приватности. ImgTranslate использует именно такой подход: Tesseract.js работает локально, а перевод выполняется через цепочку AI-провайдеров для максимального качества.