Перевод с арабского по фото: распознать и перевести арабскую вязь онлайн
Арабский язык — один из самых сложных для OCR. Он использует собственную письменность, направление письма справа налево, а форма букв меняется в зависимости от положения в слове. Тем не менее современные технологии распознавания справляются и с этой задачей. Разберём, как перевести арабский текст с фото и какие есть особенности.
Почему арабский сложен для распознавания
- Направление письма: справа налево. Tesseract.js поддерживает RTL-языки, но важно, чтобы в настройках был выбран именно арабский. При автоопределении алгоритм может ошибиться.
- Связанность букв. Большинство арабских букв соединяются внутри слова. Одна и та же буква может иметь до четырёх форм (изолированная, начальная, срединная, конечная). OCR должен не только распознать символ, но и правильно определить его форму по контексту.
- Точки и диакритические знаки. Многие арабские буквы различаются только количеством и расположением точек (ب, ت, ث, ن, ي). На размытом фото точки могут сливаться, и буква будет распознана неверно.
- Огласовки (харакат). В Коране и учебных текстах над и под буквами ставятся огласовки, обозначающие гласные звуки. OCR часто их пропускает, но для перевода это не критично — носитель языка понимает текст по контексту.
Где нужен перевод с арабского по фото
Путешествия по арабским странам
ОАЭ, Саудовская Аравия, Египет, Катар, Оман, Бахрейн, Кувейт, Иордания, Марокко, Тунис — во всех этих странах основным языком является арабский. Английский распространён в туристических зонах, но за их пределами вывески, меню и объявления — только на арабском.
- Меню: «كبة مقلية» — «Жареные киббе» (традиционное блюдо из мяса и булгура).
- Указатель: «مطار دبي الدولي» — «Международный аэропорт Дубая».
- Ценник: «ريال ١٥» — «15 риалов» (арабские цифры выглядят иначе: ١٥ это 15).
Бизнес с арабскими партнёрами
ОАЭ, Саудовская Аравия и Катар активно развивают экономические связи. Контракты, счета-фактуры, сертификаты происхождения товаров — часть документов может быть на арабском. ImgTranslate поможет быстро перевести их на русский.
Изучение арабского языка и Корана
Студенты востоковедческих факультетов и все, кто изучает арабский, часто работают с текстами в оригинале. OCR помогает быстро перевести незнакомые фрагменты, не отвлекаясь на ручной поиск в словаре.
Как арабские цифры выглядят в OCR
В арабских странах используются два типа цифр: стандартные арабские (٠١٢٣٤٥٦٧٨٩) и привычные нам «арабские» цифры (0–9). Tesseract.js распознаёт оба варианта, но стандартные арабские цифры читаются слева направо, даже внутри текста, идущего справа налево. OCR корректно обрабатывает это смешение направлений.
Советы для распознавания арабского текста
- Выбирайте язык «Арабский» явно. Автоопределение может работать хуже из-за RTL-специфики.
- Фотографируйте при хорошем освещении. Точки над и под буквами критичны для распознавания — они должны быть чётко видны.
- Избегайте декоративных шрифтов. Арабская каллиграфия (особенно стиль «дивани») очень сложна для OCR. Печатный шрифт (Nasikh) распознаётся лучше всего.
- Кадрируйте изображение. Чем меньше лишнего на фото, тем выше точность.
Заключение
Арабский — сложный для OCR язык из-за RTL, связанного письма и точек-диакритиков. Tesseract.js справляется с печатным арабским текстом при хорошем качестве снимка. Золотое правило: выбирайте «Арабский» вручную и обеспечьте чёткое фото с достаточным освещением.
Попробуйте перевести арабский текст с фото на ImgTranslate.