Известные ограничения Doc Reviewer

На этой странице описаны текущие ограничения Doc Reviewer. Понимание этих границ помогает формировать реалистичные ожидания, обходить известные проблемы и избегать распространённых затруднений. Перечисленные ограничения не являются ошибками — они отражают намеренные архитектурные решения или текущее состояние используемых технологий.

Разбор документов

Иконочные и символьные шрифты в PDF

PDF-документы иногда используют декоративные иконочные шрифты для отображения символов кнопок, индикаторов статуса и других элементов интерфейса. Такие символы хранятся в нестандартной кодировке, которую парсер PDF Doc Reviewer не может извлечь как читаемый текст. При обнаружении такого символа Doc Reviewer вставляет маркер [иконка] на его место. Это ожидаемое поведение. Промпт оценки LLM явно указывает модели игнорировать маркеры [иконка] и никогда не трактовать их как пропущенные или безымянные элементы интерфейса. Если инструкция содержит «Нажмите [иконка] Сохранить», модель понимает, что [иконка] — это декоративная графика, а «Сохранить» — фактическое название кнопки.

Маркеры [иконка] в панели предварительного просмотра инструкции не указывают на ошибку разбора и не влияют на качество оценки.

Разбор веб-страниц

Поддержка веб-страниц оптимизирована для структуры веб-справки Positive Technologies, которая использует пользовательские HTML-теги <instruction>, <action> и <task>. При загрузке страниц с этой структурой Doc Reviewer разбирает каждый блок <instruction> как отдельный раздел с корректной нумерацией шагов и чистым текстом. Для всех остальных сайтов Doc Reviewer использует универсальный конвертер HTML в Markdown. Это резервное решение работает для большинства страниц, но может давать менее качественное извлечение текста на сложных макетах, сильно стилизованных страницах или страницах с нестандартной разметкой. Если результаты оценки веб-страницы выглядят непоследовательно, скачайте её в формате PDF и загрузите файл вместо URL.

Поддержка языков

Обнаружение инструкций использует морфологический анализ, оптимизированный для русскоязычных текстов. Детектор ищет паттерны в заголовках разделов — глагольные формы, именные группы и другие конструкции, указывающие на процедурный шаг, характерные для русской грамматики. Документы на английском языке загружаются и оцениваются без ошибок, но точность автоматической классификации может быть ниже. Больше разделов может получить классификацию возможная инструкция или не инструкция вместо инструкция. Вы можете исправить это вручную, нажав на значок классификации раздела в дереве документа. Набор критериев по умолчанию и описание роли LLM также написаны на русском. Если вы регулярно оцениваете документы на английском, переведите активный набор критериев в Настройках → Критерии для более последовательных результатов.

Однопользовательский режим

Doc Reviewer создан для одного технического писателя на одном компьютере. Приложение не поддерживает:

Одновременную работу нескольких пользователей
Сетевое или серверное развёртывание
Общие базы данных или совместные рабочие пространства
Разграничение доступа по ролям

Для передачи результатов экспортируйте их в XLS с помощью кнопки Экспорт на странице оценки или используйте сохранённые снимки как точки отсчёта. Встроенных механизмов совместной работы в реальном времени нет.

Зависимость от LLM

Каждая оценка инструкции требует живого вызова к LLM. Офлайн-режима оценки без LLM не существует — если LLM API недоступен или модель не настроена, Doc Reviewer не вернёт результаты оценки. Качество оценки напрямую зависит от возможностей используемой модели. Крупная, хорошо настроенная модель (например, GPT-4o или Claude 3.5 Sonnet) даёт точные и конкретные рекомендации. Маленькая или плохо настроенная модель может возвращать расплывчатые, непоследовательные или неверные оценки. Если результаты выглядят неправильно, переключение на более мощную модель — наиболее эффективное решение.

Не используйте результаты оценки Doc Reviewer как финальный контроль качества при работе с небольшими моделями (менее 70 млрд параметров для моделей с открытым исходным кодом или аналогичных). Оценки могут выглядеть правдоподобно, но систематически ошибаться для вашей предметной области документации.

Загрузка веб-страниц

Для загрузки веб-страниц нужен Chromium, который не входит в комплект doc-reviewer.exe. Установите его один раз с помощью:

py -3.11 -m playwright install chromium

Chromium устанавливается в системный кэш Playwright (%LOCALAPPDATA%\ms-playwright) и используется всеми Playwright-приложениями на вашем компьютере. Дополнительные ограничения при загрузке веб-страниц:

Сайты, блокирующие headless-браузеры — некоторые сайты определяют и отклоняют автоматизированные сеансы браузера. Такие страницы не загружаются или возвращают неполный контент. Скачайте страницу в формате PDF или DOCX и загрузите файл как обходное решение.
SPA с интенсивным использованием JavaScript — одностраничные приложения, загружающие контент асинхронно, могут не успеть полностью отрисоваться до захвата страницы парсером. Результаты для таких страниц могут быть неполными.

Удаление без отмены

Удаление документа, проекта или снимка необратимо и не отменяется. При удалении документа все связанные результаты оценки удаляются вместе с ним из-за каскадного удаления в базе данных. То же относится к снимкам и проектам.

До удаления документа или проекта с результатами оценки, которые вы хотите сохранить, экспортируйте результаты в XLS.

Таймаут оценки

Каждая инструкция оценивается в отдельном запросе к LLM с таймаутом 3 минуты (180 секунд). Если LLM не отвечает в течение этого времени — из-за проблем с сетью, задержек на стороне сервера или перегруженной модели — инструкция помечается как ошибка таймаута и оценка продолжается для следующей инструкции. Инструкции с таймаутом не переоцениваются автоматически. Чтобы повторить попытку, запустите полную оценку документа заново, нажав Оценить на странице документа. Инструкции с уже имеющимися результатами переоцениваются вместе с теми, у которых возник таймаут.

Обнаружили ограничение, блокирующее ваш рабочий процесс, или хотите предложить функцию? Создайте задачу на github.com/amihailov76/doc-reviewer. Укажите тип документа, провайдера LLM и описание ожидаемого и фактического поведения.

Начало работы

Основные концепции

Рабочие процессы

Настройка

Решение проблем

Известные ограничения Doc Reviewer

Разбор документов

Иконочные и символьные шрифты в PDF

Разбор веб-страниц

Поддержка языков

Однопользовательский режим

Зависимость от LLM

Загрузка веб-страниц

Удаление без отмены

Таймаут оценки

​Разбор документов

​Иконочные и символьные шрифты в PDF

​Разбор веб-страниц

​Поддержка языков

​Однопользовательский режим

​Зависимость от LLM

​Загрузка веб-страниц

​Удаление без отмены

​Таймаут оценки

Разбор документов

Иконочные и символьные шрифты в PDF

Разбор веб-страниц

Поддержка языков

Однопользовательский режим

Зависимость от LLM

Загрузка веб-страниц

Удаление без отмены

Таймаут оценки