Как правильно фотографировать текст для распознавания: 8 советов

9 июня 2026

Качество распознавания текста (OCR) напрямую зависит от того, как сделано фото. Даже самая современная нейросеть ошибётся, если снимок размыт, текст под углом или освещение неравномерное. В этой статье — 8 практических советов, как фотографировать текст, чтобы OCR распознал его без ошибок.

1. Ровное освещение без бликов

Самая частая причина плохого распознавания — блики и тени. Текст должен быть освещён равномерно, без перепадов яркости.

Используйте рассеянный свет. Если снимаете при дневном свете, отвернитесь от окна — так тень от камеры не ляжет на текст. В помещении включайте верхний свет, а не настольную лампу с одной стороны.
Избегайте вспышки. Вспышка создаёт блики на глянцевой бумаге, журналах, пластиковых обложках. Лучше добавить яркость через настройки экспозиции на телефоне.
Положите лист на ровную поверхность. Если текст лежит на столе, тени почти не будет. Не держите книгу на весу — так появляются складки и перепады освещения.

2. Держите камеру параллельно тексту

OCR лучше всего распознаёт текст, снятый строго под прямым углом. Если фотографировать под углом, буквы искажаются, и алгоритм путает похожие символы («н» и «п», «о» и «а»).

Как сделать правильно: положите документ на стол, встаньте прямо над ним и держите телефон параллельно листу. В современных телефонах есть функция выравнивания в камере — включите сетку и совместите края документа с линиями.

3. Заполните кадр текстом

Не фотографируйте страницу целиком с большого расстояния — мелкий текст будет плохо распознан. Подойдите ближе или используйте зум так, чтобы текст занимал 80–90 % кадра.

Хороший ориентир: ширина буквы должна быть не меньше 20–30 пикселей. Если после съёмки буквы кажутся «размытыми» — переснимите ближе.

4. Используйте максимальное разрешение

Перед съёмкой проверьте настройки камеры: разрешение должно быть максимальным (12 Мп и выше). Даже если вы планируете сжать изображение перед отправкой в OCR, исходник должен быть чётким.

Для Tesseract.js (на котором работает ImgTranslate) оптимальный размер изображения — от 1000 до 3000 пикселей по меньшей стороне. Слишком большие фото (4000+ пикселей) замедляют обработку без прироста точности.

5. Выбирайте правильный формат

Формат	Подходит для OCR	Комментарий
PNG	Да	Без потерь, чёткий текст. Лучший выбор для скриншотов и документов
JPEG (качество 90–100%)	Да	Компактный размер. Важно: не пережимайте — артефакты сжатия «съедают» края букв
JPEG (качество < 70%)	Нет	Сильные артефакты: буквы сливаются, OCR ошибается
WebP	Да	Хороший баланс размера и качества. Поддерживается ImgTranslate
BMP / TIFF	Да	Большой размер, но без потерь. Подходит для сканов
HEIC (iPhone)	Не рекомендуется	Не все OCR-сервисы поддерживают. Лучше конвертировать в PNG/JPEG

6. Уберите лишнее с фото

Перед загрузкой в OCR-сервис обрежьте края, чтобы в кадре остался только нужный текст. Лишние элементы (пальцы, край стола, фоновые предметы) увеличивают размер файла и могут сбить алгоритм сегментации.

Большинство сервисов, включая ImgTranslate, позволяют загрузить и обработать изображение как есть — встроенный предпросмотр покажет, какой текст будет распознан. Но если вы хотите максимальной точности, обрежьте фото заранее.

7. Проверьте контраст

Текст должен быть контрастным по отношению к фону. Идеально — чёрные буквы на белом фоне. Проблемы начинаются, когда:

текст на цветном фоне (реклама, упаковка, граффити);
светлый текст на тёмном фоне (OCR всё равно справится, но может потребоваться больше времени);
текст поверх изображения (субтитры на видео, подписи на фото).

Если есть возможность, откройте фото в редакторе и добавьте контраст (+10–20 %) — это часто улучшает результат.

8. Используйте режим «Документ» в камере

Современные смартфоны (iPhone с iOS 15+, Google Pixel, Samsung Galaxy) имеют встроенный режим сканирования документов. Он автоматически выравнивает перспективу, убирает тени и повышает контраст. Результат можно сразу отправить в OCR.

Также есть приложения-сканеры: Google Drive (сканирование через камеру), Adobe Scan, Microsoft Lens. Они делают предобработку за вас — остаётся только загрузить готовое изображение в переводчик.

Что в итоге

Качество распознавания текста на 80 % зависит от того, как сделано фото. Ровное освещение, прямой угол, максимальное разрешение и контрастный текст — вот четыре столпа хорошего OCR.

Попробуйте загрузить правильно подготовленное изображение в ImgTranslate — вы увидите, что распознавание занимает меньше времени, а результат практически не требует правок.