Обновление скрипта "Поиск по набору регэкспов" для FBE - тестируем!

Дошли руки существенно дополнить, обновить, почистить и структурировать по смыслу скрипт "Поиск по набору регэкспов" для Fiction Book Editor (FBE).

Автор этого скрипта (как и многих других скриптов для FBE) - Sclex, за что ему отдельное гран мерси.

Наполнение скрипта мое, Sclex-а + учтены все возможные пожелания книгоделов из двух старых здешних тем:

Типичные ошибки распознавания...
https://lib.rus.ec/node/268750
и
Курьезы сканировщика:
http://lib.rus.ec/comment/372489

Пользоваться и тестировать могут все желающие, отзывы, примеры, предложения по улучшению категорически приветствуются.

Просьба приводить конкретные примеры:

- ошибок скрипта, ложных срабатываний
- ошибок распознавания, которые можно включить в скрипт
- прочих пожеланий и усовершенствований.

Очень приветствуется помощь тех, кто хорошо знаком с регулярными выражениями для дальнейшего совершенствования скрипта.

Ссылка на последнюю версию скрипта (30-09-2019):

https://my-files.ru/p1yq7v

альтернативные ссылки:
https://ru.files.fm/u/j76r8q44
https://anonfiles.com/Yae3t470n2/17_TaKir-Sclex-30-09-2019_js
https://www25.zippyshare.com/v/GgMyWsRc/file.html

Заменить этим файлом имеющийся файл (или положить новый вариант скрипта рядом) в папке:
... /Fiction Book Editor/Scrips/06_Чистка

Скрипту удобнее назначить горячую клавишу F2 (меню: Сервис-Настройки-Клавиши-Скрипты-Поиск по набору регэкспов).

Перед запуском данного скрипта лучше обработать текст скриптами "Генеральная уборка", "Латиница в кириллице"
Тогда будет гораздо меньше лишних срабатываний.

По мере накопления отзывов о работе скрипта, планирую периодически пополнять скрипт и выкладывать обновленную версию.

P.S. На Флибусте открыта аналогичная тема, можно писать в любую.
http://www.flibusta.is/node/441303

Комментарии

Аватар пользователя V_E

alexej36 написал:
В FBE есть проверка по словарю. "Орфография" F7 тыц. У поиска по набору регэкспов другая задача.

Не буду спорить. Свою задачу я вижу в том, чтобы набрать статистику. Что из нее учитывать, а что не учитывать, думаю должны решать разработчики.

Идеальный скрипт в любом случае не сделать.
Писалось выше - улучшить бы "Генеральную уборку".

tvnic написал:
улучшить бы "Генеральную уборку".

Пока не вижу примеров для доработки скрипта, кроме прилипшего многоточия и удаления пробела перед маркером сноски.
Какие улучшения нужны?

А апостроф?
...предусмотреть замену всех возможных различных вариаций апострофов - ´ ʼ ′ ˙ ΄ - на ' (буква «э» на англ. раскладке), который U+0027.

V_E, вы, вообще, в курсе, что пробел и нижнее подчеркивание, это разные символы?

Страницы

X