Документы: разбор и классификация контента

Документ — это источник контента, который Doc Reviewer анализирует. Вы загружаете документ, передавая файл или URL, и Doc Reviewer автоматически разбивает его на разделы, классифицирует каждый и отображает результат в виде дерева для просмотра и оценки. Каждый документ принадлежит проекту, и несколько документов одного проекта используют общий контекст продукта при оценке.

Поддерживаемые форматы

PDF

Жирное начертание сохраняется, чтобы LLM распознавал названия элементов интерфейса и отличал их от основного текста.

DOCX

Жирное начертание сохраняется так же, как в PDF, чтобы названия элементов интерфейса оставались читаемыми для LLM.

Markdown (.md)

Разбирается нативно. Структура заголовков используется напрямую для построения дерева разделов.

Обычный текст (.txt)

Разбирается как обычный текст. Разделы выделяются по паттернам, характерным для заголовков.

Веб-страницы

Помимо файлов, вы можете загружать контент по URL. Doc Reviewer использует headless-браузер Chromium (Playwright), поэтому страницы с JavaScript и одностраничные приложения (SPA) загружаются корректно. Чтобы добавить веб-страницу, выберите вкладку По URL на экране оценки, вставьте URL и нажмите Загрузить. После загрузки первой страницы вы можете добавить другие страницы того же документационного сайта с помощью кнопки + Добавить страницу — все они будут обработаны как один документ.

Веб-парсер оптимизирован для веб-справки Positive Technologies, которая использует пользовательские теги <instruction>, <action> и <task>. Каждый блок <instruction> становится отдельным разделом в дереве документа. Для других сайтов Doc Reviewer использует универсальное преобразование HTML в Markdown, которое работает для большинства страниц, но может давать менее качественные результаты на сложных макетах.

Что происходит при загрузке документа

При загрузке файла или URL Doc Reviewer обрабатывает документ в три шага:

Разбор

Файл читается и делится на разделы по заголовкам. Каждый раздел получает заголовок, содержимое, уровень заголовка и путь, отражающий его положение в иерархии документа.

Обнаружение инструкций

Каждый раздел анализируется детектором инструкций, который проверяет три признака: пронумерован ли заголовок как отглагольное существительное, обозначающее задачу (например, «Настройка подключения» или «Добавление пользователя»); есть ли в теле раздела вводная фраза «Чтобы [глагол]:»; содержит ли тело нумерованный список шагов. Разделы, соответствующие всем трём признакам, классифицируются как инструкция; соответствующие одному или двум — как возможная инструкция; остальные — как не инструкция.

Отображение классификации

Классифицированные разделы появляются в дереве документа. Вы можете просматривать всю структуру, видеть, какие разделы определены как инструкции, и корректировать классификацию перед запуском оценки.

Классификации разделов

Каждый раздел документа получает одну из трёх классификаций:

Инструкция

Раздел соответствует всем трём признакам обнаружения: отглагольное существительное в заголовке, вводная фраза в теле и нумерованный список шагов. Doc Reviewer по умолчанию включает такие разделы в оценку.

Возможная инструкция

Раздел соответствует одному или двум признакам, но не всем трём. Это может быть инструкция, в которой отсутствует стандартный элемент, или контент другого типа. Doc Reviewer включает разделы с этой классификацией в оценку наравне с подтверждёнными инструкциями — вы просматриваете их результаты и решаете, оставлять ли их.

Не инструкция

Раздел не соответствует ни одному признаку обнаружения. Как правило, это вводные тексты, обзорные страницы, глоссарии, справочные таблицы и аналогичный непроцедурный контент. Такие разделы никогда не отправляются в LLM для оценки. Вместо этого они используются как источник материала для генерации контекста продукта.

Вы можете включать или исключать отдельные разделы из оценки с помощью переключателя в дереве документа. Раздел, классифицированный неверно, вы можете отметить как ложное срабатывание, чтобы он не влиял на итоговые результаты.

Дерево документа

При открытии документа Doc Reviewer показывает его полную структуру в виде дерева. Дерево отражает иерархию заголовков исходного файла: заголовки верхнего уровня — в корне, подразделы — вложены под ними. Каждый узел дерева показывает:

Заголовок раздела
Его классификацию (инструкция, возможная инструкция или не инструкция)
Включён ли раздел в оценку или исключён из неё
Цветовой результат оценки (после завершения оценки)

Дерево позволяет быстро перемещаться по большим документам и находить разделы с проблемами без прокрутки всего содержимого.

Несколько документов в одном проекте

Вы можете добавить в проект любое количество документов. Каждый документ оценивается независимо: LLM оценивает каждую инструкцию в документе отдельно, опираясь на окружающий контекст раздела (два раздела до и после) и общий контекст продукта проекта. Документы не обмениваются результатами оценки друг с другом.

Начало работы

Основные концепции

Рабочие процессы

Настройка

Решение проблем

Документы: разбор и классификация контента

Поддерживаемые форматы

PDF

DOCX

Markdown (.md)

Обычный текст (.txt)

Веб-страницы

Что происходит при загрузке документа

Классификации разделов

Дерево документа

Несколько документов в одном проекте

​Поддерживаемые форматы

PDF

DOCX

Markdown (.md)

Обычный текст (.txt)

​Веб-страницы

​Что происходит при загрузке документа

​Классификации разделов

​Дерево документа

​Несколько документов в одном проекте

Поддерживаемые форматы

Веб-страницы

Что происходит при загрузке документа

Классификации разделов

Дерево документа

Несколько документов в одном проекте