Skip to main content

Documentation Index

Fetch the complete documentation index at: https://www.doc-reviewer.site/llms.txt

Use this file to discover all available pages before exploring further.

Документ — это источник контента, который Doc Reviewer анализирует. Вы загружаете документ, передавая файл или URL, и Doc Reviewer автоматически разбивает его на разделы, классифицирует каждый и отображает результат в виде дерева для просмотра и оценки. Каждый документ принадлежит проекту, и несколько документов одного проекта используют общий контекст продукта при оценке.

Поддерживаемые форматы

PDF

Жирное начертание сохраняется, чтобы LLM распознавал названия элементов интерфейса и отличал их от основного текста.

DOCX

Жирное начертание сохраняется так же, как в PDF, чтобы названия элементов интерфейса оставались читаемыми для LLM.

Markdown (.md)

Разбирается нативно. Структура заголовков используется напрямую для построения дерева разделов.

Обычный текст (.txt)

Разбирается как обычный текст. Разделы выделяются по паттернам, характерным для заголовков.

Веб-страницы

Помимо файлов, вы можете загружать контент по URL. Doc Reviewer использует headless-браузер Chromium (Playwright), поэтому страницы с JavaScript и одностраничные приложения (SPA) загружаются корректно. Чтобы добавить веб-страницу, выберите вкладку По URL на экране оценки, вставьте URL и нажмите Загрузить. После загрузки первой страницы вы можете добавить другие страницы того же документационного сайта с помощью кнопки + Добавить страницу — все они будут обработаны как один документ.
Веб-парсер оптимизирован для веб-справки Positive Technologies, которая использует пользовательские теги <instruction>, <action> и <task>. Каждый блок <instruction> становится отдельным разделом в дереве документа. Для других сайтов Doc Reviewer использует универсальное преобразование HTML в Markdown, которое работает для большинства страниц, но может давать менее качественные результаты на сложных макетах.

Что происходит при загрузке документа

При загрузке файла или URL Doc Reviewer обрабатывает документ в три шага:
1

Разбор

Файл читается и делится на разделы по заголовкам. Каждый раздел получает заголовок, содержимое, уровень заголовка и путь, отражающий его положение в иерархии документа.
2

Обнаружение инструкций

Каждый раздел анализируется детектором инструкций, который проверяет три признака: пронумерован ли заголовок как отглагольное существительное, обозначающее задачу (например, «Настройка подключения» или «Добавление пользователя»); есть ли в теле раздела вводная фраза «Чтобы [глагол]:»; содержит ли тело нумерованный список шагов. Разделы, соответствующие всем трём признакам, классифицируются как инструкция; соответствующие одному или двум — как возможная инструкция; остальные — как не инструкция.
3

Отображение классификации

Классифицированные разделы появляются в дереве документа. Вы можете просматривать всю структуру, видеть, какие разделы определены как инструкции, и корректировать классификацию перед запуском оценки.

Классификации разделов

Каждый раздел документа получает одну из трёх классификаций:
Раздел соответствует всем трём признакам обнаружения: отглагольное существительное в заголовке, вводная фраза в теле и нумерованный список шагов. Doc Reviewer по умолчанию включает такие разделы в оценку.
Раздел соответствует одному или двум признакам, но не всем трём. Это может быть инструкция, в которой отсутствует стандартный элемент, или контент другого типа. Doc Reviewer включает разделы с этой классификацией в оценку наравне с подтверждёнными инструкциями — вы просматриваете их результаты и решаете, оставлять ли их.
Раздел не соответствует ни одному признаку обнаружения. Как правило, это вводные тексты, обзорные страницы, глоссарии, справочные таблицы и аналогичный непроцедурный контент. Такие разделы никогда не отправляются в LLM для оценки. Вместо этого они используются как источник материала для генерации контекста продукта.
Вы можете включать или исключать отдельные разделы из оценки с помощью переключателя в дереве документа. Раздел, классифицированный неверно, вы можете отметить как ложное срабатывание, чтобы он не влиял на итоговые результаты.

Дерево документа

При открытии документа Doc Reviewer показывает его полную структуру в виде дерева. Дерево отражает иерархию заголовков исходного файла: заголовки верхнего уровня — в корне, подразделы — вложены под ними. Каждый узел дерева показывает:
  • Заголовок раздела
  • Его классификацию (инструкция, возможная инструкция или не инструкция)
  • Включён ли раздел в оценку или исключён из неё
  • Цветовой результат оценки (после завершения оценки)
Дерево позволяет быстро перемещаться по большим документам и находить разделы с проблемами без прокрутки всего содержимого.

Несколько документов в одном проекте

Вы можете добавить в проект любое количество документов. Каждый документ оценивается независимо: LLM оценивает каждую инструкцию в документе отдельно, опираясь на окружающий контекст раздела (два раздела до и после) и общий контекст продукта проекта. Документы не обмениваются результатами оценки друг с другом.