MT-Recognition - онлайн сервис распознавания текста с математическими формулами с картинок (PDF) и фото для использования в LaTeX, MathType, Word и InDesign
Используемое в контенте сайта слово MathType является зарегистрированной торговой маркой компании Maths for More S.L.
The word MathType used in the website content is a registered trademark of Maths for More S.L.
Official website of the company - https://www.wiris.com. Email: info@wiris.com. Address: Roger de Flor, 223, 08025 Barcelona, Spain.
ВНИМАНИЕ! СЕРВИС НЕ РАБОТАЕТ ПО ТЕХНИЧЕСКИМ ПРИЧИНАМ. КЛЮЧИ НЕ ВЫДАЮТСЯ. ЕСЛИ У ВАС УЖЕ ЕСТЬ ОПЛАЧЕННЫЙ КЛЮЧ, ТО ВЫ МОЖЕТЕ ЕГО ИСПОЛЬЗОВАТЬ. ДЛЯ ВАС СЕРВИС БУДЕТ РАБОТАТЬ ДО КОНЦА 2022 ГОДА. ИЗВИНИТЕ!
Как распознаются тексты с математическими формулами
Набор текста с формулами — сложное и трудоемкое занятие.
Набирать математику для начальной школы — может быть и не очень сложно, а вот вузовский математический анализ или теоретическую физику с многочисленными многоэтажными дробями, интегралами, рядами и т.п. — это очень не просто.
Хотелось бы хоть как-то облегчить и ускорить этот процесс.
MT-Recognition — онлайн сервис, который должен помочь в наборе текстов с математическими формулами любого уровня сложности.
В настоящее время сервис уверенно распознает формулы и тексты на русском, английском, немецком, французском, испанском, итальянском, португальском, китайском и хинди, а также при комбинациях этих языков.
Формулы распознаются хорошо, если они содержат символы латинского и греческого алфавитов, а также специальные математические символы. Изображения формул могут быть как печатными, так и рукописными. Оба варианта сервис "набирает" хорошо.
Символы других языков в формулах в процессе распознавания приводятся к латинице.
Например, слово "вектор", если оно встретится внутри формулы, будет распознано как "bekmop" или что-то вроде этого.
Тексты с кириллицей уверенно распознаются только с печатных оригиналов, а тексты на английском, немецком, французском, испанском, итальянском, португальском хорошо распознаются также и с рукописных оригиналов.
Любая система оптического распознавания не идеальна и MT-Recognition — не исключение. О ее преимуществах и недостатках речь пойдет немного позже. Однако из опыта можно сказать, что результаты распознавания математических формул поистине впечатляют. Если текст не латиница, то в некоторых случаях могут случаться ошибки и возникать проблемы, а вот распознавание формул — потрясающее.
Использование MT-Recognition увеличивает скорость набора книг по физике и математике в десять раз. Этот сервис стоит того, чтобы обратить на него внимание и попробовать распознать несколько страниц с математическими формулами.
Главное окно сервиса MT-Recognition имеет вид
- Вкладка разпознавание
- Вкладка документация
- Вкладка купить - информация об условиях работы с MT-Recognition
- Вкладка истории использования сервисом
- EMAIL, на который был зарегистрирован ключ доступа
- Поле для ввода ключа доступа
- Количество доступных к распознаванию объектов для ключа доступа
- Поле для загрузки изображения
- Кнопка запуска процесса распознавания
- Кнопка очистки всех полей формы
- Окно пиктограммы исходного распознанного изображения
- Окно с распознанными формулами и текстом
- Включение режима MathJax - отображение отформатированных формул
- Копировать формулы и текст в буфер обмена
Как получить доступ к системе распознавания текста с формулами для тестирования
Как подготовить изображения для распознавания
Для работы с OSR в поле EMAIL введите email, на который зарегистрирован ключ, а в поле KEY CODE — ключ доступа. Если данные правильные, то под полем KEY CODE отобразится доступное для распознавания количество объектов.
Теперь можно загрузить картинку (обязательно в формате JPG или PNG) в поле, расположенном под полем KEY CODE.
Если исходный документ — PDF, то сразу загружать его НЕЛЬЗЯ. Сначала нужно получить постраничные изображения в формате JPG с нужным качеством. Для этого откройте PDF в Adobe Acrobat, далее в меню Файл -> Экспорт в -> Изображение -> JPEG.
Теперь нужно один раз задать настройки для экспорта изображений. В дальнейшем весь экспорт из Acrobat будет выполняться с этими параметрами.
В открывшемся диалоговом окне в нижней его части есть кнопка "Настройки...". Кликните по ней. Откроется еще одно диалоговое окно, в котором установите параметры файла JPEG(высшее качество). В разделе "Преобразование" поставьте "В градациях серого" и подберите разрешение таким образом, чтобы размеры экспортируемых изображений не превышали 5000х5000 пикселей, а размер файлов не превышал 3 Мб. Нажмите Ok. Запустите экспорт, выбрав предварительно папку, в которою Acrobat разместит постраничные JPG. Полученные таким образом изображения можно загружать в MT-Recognition.
Если не удалось подобрать параметры так, чтобы эффективно сжать изображения, тогда воспользуйтесь Photoshop.
Откройте Photoshop. Перейдите в меню Файл -> Сценарии -> Обработчик изображений. Используя этот функционал можно пакетно преобразовывать изображения из выбранной папки, изменяя как количество пикселей по горизонтали и по вертикали, так и степень сжатия.
Процесс распознавания и экспорт текста с формулами в Word
Итак, после того, как изображение выбрано, нажмите кнопку РАСПОЗНАТЬ ТЕКСТ С ФОРМУЛАМИ, чтобы запустить процесс.
Когда распознавание пройдет успешно, то ниже в блоке "ИСХОДНОЕ ИЗОБРАЖЕНИЕ" появится пиктограмма загруженной картинки, а справа от нее в блоке "РАСПОЗНАННЫЙ ТЕКСТ С ФОРМУЛАМИ" — готовый набранный текст.
Не хотите распознавать изображения по одному - выберите сразу несколько изображений, даже сотню изображений и нажмите на кнопку РАСПОЗНАТЬ ТЕКСТ С ФОРМУЛАМИ и сервис будет сам последовательно загружать каждой изображение. Результаты можно будет получить в разделе ИСТОРИЯ.
Обратите внимание! Распознанные формулы выдаются только в формате LaTeX.
В зависимости от Вашего технического процесса, этот формат может быть как окончательным, так и промежуточным.
В любом случае сначала необходимо скопировать распознанный текст в Word. Для этого можно выделить его в блоке "РАСПОЗНАННЫЙ ТЕКСТ С ФОРМУЛАМИ" и скопировать в буфер обмена, а можно просто кликнуть на пиктограмму в шапке этого блока. Текст будет помещен в буфер автоматически. Остается лишь вставить его в Word.
Конвертация формул в LaTeX нотации в формат MathType в Word
Если Вам необходимы формулы MathType в Word, то конвертируйте их из LaTeX в Word.
Для этого на компьютере должен быть установлен MathType. Если у Вас его нет, то самое время инсталлировать.
В главном меню Word, выберите пункт MathType, и на открывшейся панели найдите пункт "Toggle TeX".
На копии экрана виден текст с формулами LaTeX до конвертации в MathType.
Выделите весь текст и кликните "Toggle TeX". Если Вы кликнули, а ничего не происходит, значит выделено слишком много формул и MathType отказывается их конвертировать. Почему? Это вопрос к службе поддержки MathType. Выделяйте текст небольшими частями, тогда конвертация будет успешной.
Вот что должно получиться после преобразования.
Теперь в Word появились формулы MathType. В дальнейшем Вы можете их отформатировать (применить стили, поменять размеры) и использовать в соответствии с Вашим технологическим процессом.
Конечно, что-то в формулах может быть распознано не совсем так, как хотелось. Придется немного поправить как текст, так и формулы, но они уже распознаны и более чем на 90% удовлетворяют всем требованиями.
Кстати, будет время, почитайте немного о формате формул в TeX. Иногда бывает очень удобно делать какие-то массовые правки в формулах пока они находятся в виде простого текста.
Раздел ИСТОРИЯ для пакетного экспорта текста
- Выделить все распознанные картинки
- Выделить отдельную картинку
- Удалить картинку и распознанные на ней формулы и текст из истории
- Один клик по изображению - открыть распознанные формулы и текст в окне справа
- Очистить всю историю
- Сортировать изображения
- Окно с распознанным текстом и формулами TeX
- Пакетный экспорт текста, распознанного на выделенных изображениях
- Режим MathJax - предпросмотр формул в формате MathType
- Сохранить текст и формулы в Clipboard
В MT-Recognition есть также раздел "ИСТОРИЯ", в котором отображаются все загруженные и распознанные изображения.
Если кликнуть по изображению (по центральной части изображения) (4) в блоке "ИСХОДНЫЕ ИЗОБРАЖЕНИЯ", то справа в блоке "РАСПОЗНАННЫЙ ТЕКСТ С ФОРМУЛАМИ" (7) появится ранее распознанный текст, который был сохранен в истории сервиса. Вы также можете его скопировать в буфер обмена и передать в Word (10).
Обратите, пожалуйста, внимание, что распознанные изображения хранятся на сервисе 14 дней и на 15-й день удаляются автоматически! Пожалуйста, учитывайте это при планировании своей работы.
Если изображения были распознаны, значит в разделе ИСТОРИЯ они будут отображаться, а над блоком "ИСХОДНЫЕ ИЗОБРАЖЕНИЯ" появятся четыре кнопки.
Первая кнопка (1) выбирает или отменяет выбор сразу всех изображений в истории для того, чтобы передавать текст не по одной странице, а наборами страниц.
Вторая кнопка (5) полностью очищает всю историю. Для очищения всей истории не нужно ничего выделять дополнительно. Эта кнопка сама удаляет всё из истории.
Третья и четвертая кнопки (6) меняют порядок сортировки изображений по времени их загрузки и обработки (от первого к последнему или наоборот).
На каждом изображении также есть по две кнопки.
Вверху слева — пустой белый квадрат. Клик по нему выделяет изображение, а пустой квадрат изменятся на квадрат с галочкой.
Вверху справа — красный крестик. Это кнопка для удаления из истории только этого изображения.
Если выделено одно или несколько изображений (вместо белых квадратов отображаются квадраты с галочками), то справа в шапке блока "РАСПОЗНАННЫЙ ТЕКСТ С ФОРМУЛАМИ" появится кнопка "EXPORT ALL SELECTED ITEMS".
Клик по ней передает в блок "РАСПОЗНАННЫЙ ТЕКСТ С ФОРМУЛАМИ" текст (и формулы) сразу со всех выделенных слева изображений в порядке их следования сверху вниз.
Часть текста, соответствующая изображению, при распознавании которого она была получена отделяется от другого текста набором дефисов и названием файла с исходным изображением.
Чтобы изменить порядок следования распознанных текстовых блоков, сначала выберите соответствующий порядок следования изображений в блоке "ИСХОДНЫЕ ИЗОБРАЖЕНИЯ" с помощью кнопок (6) , а затем еще раз дайте команду на передачу текста в блок "РАСПОЗНАННЫЙ ТЕКСТ С ФОРМУЛАМИ" (то есть нажмите кнопку "EXPORT ALL SELECTED ITEMS").
Преимущества и недостатки MT-Recognition
Давайте теперь рассмотрим, что же реально может этот сервис распознавания, а что ему недоступно.
1. Обычный текст с формулами распознается достаточно уверенно. Единственный минус — не выделяется оформление текста курсивом, жирным и их комбинациями. В общем, получается сплошной текст и формулы.
Разбиение на абзацы выполняется.
Все греческие символы, а также простые формулы и выражения (например, x = 1 и x2) распознаются в виде формул.
2. Рисунки игнорируются, текст внутри рисунков не распознается. Обратите внимание, если рисунок обтекается текстом с формулами, то некоторые формулы могут исчезать из распознанного текста, как и отдельные части текста.
Это большой недостаток, однако, к сожалению, такие же проблемы наблюдаются и при работе с FineReader.
Поэтому примите, пожалуйста, небольшой совет — попробуйте удалять рисунки с изображений перед распознаванием. Так удастся добиться лучшего качестве набора текста с формулами.
3. Таблицы не распознаются и игнорируются точно также как и рисунки. Да, это существенный недостаток, но пока так.
4. Текст на английском (и любом языке с латиницей) распознается как с печатного оригинала, так и с рукописного. Формулы также очень хорошо распознаются как печатные, так и рукописные.
К сожалению, рукописную кириллицу система не распознает.
Однако, если у Вас будет печатный оригинал на русском, а формулы вписаны вручную, то такие страницы должны быть распознаны хорошо.
Обратите, пожалуйста, внимание на кнопку (9) в виде шестеренок, расположенную рядом с заголовком блока "РАСПОЗНАННЫЙ ТЕКСТ С ФОРМУЛАМИ". С ее помощью можно посмотреть, как будут выглядеть формулы в Word после конвертации в MathType.
Клик по ней подключает MathJax и формулы отобразятся в привычном отформатированном виде (как в Word). Если, вдруг, какая-то формула не отображается, а вместо нее видна красная полоска с ошибкой - беспокоиться рано. К сожалению, MathJax не идеален. В 99,9% случаев эта же формула в Word будет конвертирована правильно.
Обратите внимание, текст с формулами с MathJax скопировать и передавать в Word уже НЕЛЬЗЯ. Они БУДУТ ПЕРЕДАНЫ НЕКОРРЕКТНО.
Чтобы опять получить пригодный для копирования в Word текст просто кликните на картинке, с которой распознавался этот текст.
Если Вы находитесь на странице истории и экспортировали набор страниц, то кликните по "EXPORT ALL SELECTED ITEMS".
Замечание по работе с MT-Recognition
Для каждого загруженного файла рассчитывается хэш. Поэтому, если Вы повторно попытаетесь распознать этот же файл, то он уже будет передаваться на распознавание. Вместо этого, текст будет взят из базы данных с прошлого распознавания. Естественно, что никакие объекты не будут сняты с Вашего счета.
Если Вы хотите перераспознать изображение, то его нужно либо пересохранить, либо удалить из истории и после этого загружать на распознавание.
В этом случае изображение будет распознано еще раз. Баланс уменьшится на 0.2 * количество распознанных формул + 1.
СЕРВИС НЕ РАБОТАЕТ ПО ТЕХНИЧЕСКИМ ПРИЧИНАМ. КЛЮЧИ НЕ ВЫДАЮТСЯ. ИЗВИНИТЕ!