Как правильно фотографировать текст для распознавания: 8 советов
Качество распознавания текста (OCR) напрямую зависит от того, как сделано фото. Даже самая современная нейросеть ошибётся, если снимок размыт, текст под углом или освещение неравномерное. В этой статье — 8 практических советов, как фотографировать текст, чтобы OCR распознал его без ошибок.
1. Ровное освещение без бликов
Самая частая причина плохого распознавания — блики и тени. Текст должен быть освещён равномерно, без перепадов яркости.
- Используйте рассеянный свет. Если снимаете при дневном свете, отвернитесь от окна — так тень от камеры не ляжет на текст. В помещении включайте верхний свет, а не настольную лампу с одной стороны.
- Избегайте вспышки. Вспышка создаёт блики на глянцевой бумаге, журналах, пластиковых обложках. Лучше добавить яркость через настройки экспозиции на телефоне.
- Положите лист на ровную поверхность. Если текст лежит на столе, тени почти не будет. Не держите книгу на весу — так появляются складки и перепады освещения.
2. Держите камеру параллельно тексту
OCR лучше всего распознаёт текст, снятый строго под прямым углом. Если фотографировать под углом, буквы искажаются, и алгоритм путает похожие символы («н» и «п», «о» и «а»).
Как сделать правильно: положите документ на стол, встаньте прямо над ним и держите телефон параллельно листу. В современных телефонах есть функция выравнивания в камере — включите сетку и совместите края документа с линиями.
3. Заполните кадр текстом
Не фотографируйте страницу целиком с большого расстояния — мелкий текст будет плохо распознан. Подойдите ближе или используйте зум так, чтобы текст занимал 80–90 % кадра.
Хороший ориентир: ширина буквы должна быть не меньше 20–30 пикселей. Если после съёмки буквы кажутся «размытыми» — переснимите ближе.
4. Используйте максимальное разрешение
Перед съёмкой проверьте настройки камеры: разрешение должно быть максимальным (12 Мп и выше). Даже если вы планируете сжать изображение перед отправкой в OCR, исходник должен быть чётким.
Для Tesseract.js (на котором работает ImgTranslate) оптимальный размер изображения — от 1000 до 3000 пикселей по меньшей стороне. Слишком большие фото (4000+ пикселей) замедляют обработку без прироста точности.
5. Выбирайте правильный формат
| Формат | Подходит для OCR | Комментарий |
|---|---|---|
| PNG | Да | Без потерь, чёткий текст. Лучший выбор для скриншотов и документов |
| JPEG (качество 90–100%) | Да | Компактный размер. Важно: не пережимайте — артефакты сжатия «съедают» края букв |
| JPEG (качество < 70%) | Нет | Сильные артефакты: буквы сливаются, OCR ошибается |
| WebP | Да | Хороший баланс размера и качества. Поддерживается ImgTranslate |
| BMP / TIFF | Да | Большой размер, но без потерь. Подходит для сканов |
| HEIC (iPhone) | Не рекомендуется | Не все OCR-сервисы поддерживают. Лучше конвертировать в PNG/JPEG |
6. Уберите лишнее с фото
Перед загрузкой в OCR-сервис обрежьте края, чтобы в кадре остался только нужный текст. Лишние элементы (пальцы, край стола, фоновые предметы) увеличивают размер файла и могут сбить алгоритм сегментации.
Большинство сервисов, включая ImgTranslate, позволяют загрузить и обработать изображение как есть — встроенный предпросмотр покажет, какой текст будет распознан. Но если вы хотите максимальной точности, обрежьте фото заранее.
7. Проверьте контраст
Текст должен быть контрастным по отношению к фону. Идеально — чёрные буквы на белом фоне. Проблемы начинаются, когда:
- текст на цветном фоне (реклама, упаковка, граффити);
- светлый текст на тёмном фоне (OCR всё равно справится, но может потребоваться больше времени);
- текст поверх изображения (субтитры на видео, подписи на фото).
Если есть возможность, откройте фото в редакторе и добавьте контраст (+10–20 %) — это часто улучшает результат.
8. Используйте режим «Документ» в камере
Современные смартфоны (iPhone с iOS 15+, Google Pixel, Samsung Galaxy) имеют встроенный режим сканирования документов. Он автоматически выравнивает перспективу, убирает тени и повышает контраст. Результат можно сразу отправить в OCR.
Также есть приложения-сканеры: Google Drive (сканирование через камеру), Adobe Scan, Microsoft Lens. Они делают предобработку за вас — остаётся только загрузить готовое изображение в переводчик.
Что в итоге
Качество распознавания текста на 80 % зависит от того, как сделано фото. Ровное освещение, прямой угол, максимальное разрешение и контрастный текст — вот четыре столпа хорошего OCR.
Попробуйте загрузить правильно подготовленное изображение в ImgTranslate — вы увидите, что распознавание занимает меньше времени, а результат практически не требует правок.