Лайфхаки при распознавании текста и заполнении таблиц
(работа над англо-русским словарем
Итак, у меня был PDF с шрифтом в кривых, который надо было перевести в текстовый вид в ворд.
Вначале я сохранила каждую страницу файла pdf в виде *.jpg
Потом открываю свой любимый сайт распознавания
www.onlineocr.net/ru/
Выбираю первую страничку для распознавания, русский язык, перевод в ворд и поехали. Чем хорош этот сайт – он делает таблицы для Ворда, именно таблицы а не набор палочек, как многие сайты распознавания. Но при этом минус – может распознавать только один язык – русский или английский за один прогон. Поэтому распознаем русско-английский словарь за два прохода.
Итак, открываем русский файл в ворде, нашу таблицу – получаем жутко неудобную кашу стилей в ворде. Можно выбрать в главном меню Ворда пиктограмму стиль и потом пункт – очистить стиль. Но это долго, я же пытаюсь все автоматизировать!
Поэтому делаем быстрые клавиши на операцию очистить стили:
Файл/параметры/настроить ленту
сочетания клавиш, кнопка «настройка» (внизу)
Выбираем Вкладка Главная (слева), команда ClearAllFormating (справа)
В поле Новое сочетание клавиш (справа) набираем сочетание клавиш «ctrl» и «-« (нажимаю их одновременно) - потом кнопка «Назначить».
Ура - теперь при нажатии "Ctrl" + "-" будет очищаться формат.
Изготавливаем заготовку таблицу 2 для нашего словаря: делаем таблицу из трех столбцов и 20 строк для начала.
В файле, который скачался с сайта распознавания после очистки формата (таблица 1) скопировать нужные клетки таблицы, Ctrl + C
Затем вставить курсор в пустое поле таблицы 2 – важно, чтобы в таблице-заготовке было столько пустых строк, сколько вставляем – иначе может криво вставится размер ячеек, нажимаем ctrl + V
Снова идем в программу распознавания, выбираем тот же .jpg файл, язык английский, нажимаем распознать, скачиваем полученный файл, очищаем формат, копируем столбец с английским текстом!
И теперь ставим курсор в нужный столбец с английским текстом и нажимаем Ctrl + V – вставляется сразу нужное кол-во строк в выбранном столбце.
Теперь в тех словах, где нужна транскрипция на английском (она распознается очень криво), идем на сайт www.onlineocr.net/ru/ (сайт переводит английские слова В транскрипцию) – там копируем слово, забираем транскрипцию и вставляем в свою таблицу 2.
Несколько лайфхаков по работе с таблицами:
Чтобы добавить новую строчку в таблице – поставить в последнюю ячейку последнего столбца курсор и нажать «Tab» (почему-то у меня не добавлялись строки слева всплывающими значками +)
Чтобы был заголовок таблицы на каждой странице:
Выделяем строку с заголовками, выбираем пункт макет в ленте ворда – второй пункт «макет» (таблицы)!!!
Данные/повторить строки заголовков
Чтобы высота строк была по размеру содержимого:
Свойства таблицы/строка/высота – там не должно стоять флажка!!!
Чтобы был небольшой отступ от краев таблицы:
Свойства таблицы/ячейка/параметры
снять галку на поля ячейки и вручную сделать везде 0,1 мм
А вот чтобы убрать в Абзацах лишние расстояния – выбрать всю таблицу, Абзац/интервал и везде выставить нули.
У меня долгое время ворд не отражал поля страницы, решение таково:
Показывать поля между страницами в режиме разметки – поставить галку!