Читабельность правовых актов Республики Казахстан

Анализ средствами компьютерной лингвистики и практические рекомендации

Дмитрий Серебренников (Со-руководитель Программы социальных исследований Maqsut Narikbayev Institute for Network and Development, исследователь ИПП ЕУ СПб);

Антон Дидикин (Associate professor Департамента публичного права Высшей Школы Права Maqsut Narikbayev University)

Ольга Бектибаева (Декан Высшей Школы Права Maqsut Narikbayev University);

 

 

Maqsut Narikbayev Institute for Network and Development представляет аналитический отчет с анализом читаемости Законов Республики Казахстан на материале текстов 387 нормативно-правовых актов в казахской и русской версиях средствами компьютерной лингвистики. В отчете проилюстрированы лексические и синтаксические особенности корпуса Законов на каждом языке. Продемонстрированы отношения областей законотворчества с точки зрения сложности текстов, а также изменения показателей читаемости с 2000 г. На основе международного опыта и собственных разработок, авторами разработаны методические рекомендации для написания более понятных юридических документов в Республике Казахстан (РК). Для проверки их качества было проведен опрос, показазывающий, что редакция текста может улучшать читабельность, в среднем, до 35% в сравнении с оригинальной версией.

Мы выражаем благодарность Сергею Пену, Руслану Кучакову и Денису Савельеву за ценные комментарии по улучшению работы на разных её этапах. Мы также признательны Амирлану Нургазину и Санжару Калканбаю за помощь в подготовке данных.


Серебренников Д., Дидикин А., Бектибаева О. (2025) Читабельность правовых актов Республики Казахстан: Анализ средствами компьютерной лингвистики и практические рекомендации. MIND Analytical Report Series, Астана

Настоящее издание может свободно и без получения особого разрешения правообладателя распространяться в электронном виде при условии, что копирование и/или распространение не преследует целей извлечения прибыли, сохраняется указание имен авторов и правообладателя и не модифицируется, включая конвертацию в другие форматы файлов. Оригинальная электронная версия издания находится на сайте — http://https://mind.mnu.kz/research


 

Executive summary | Основные результаты

Понятие “читаемости” может показаться неразрывно связанным с человеческим восприятием сложности того или иного текста. Однако, благодаря развитию компьютерной лингвистики за последние полвека “читаемость” стала популярным способом оценки понятности текстов из самых разных сфер. Нормативные акты - не исключение.

Сложно написанный юридический документ может привести к его неправильной трактовке гражданином, что может обернуться рисками для его имущества и карьеры. По этой причине в разных странах наблюдаются законодательные инициативы и политические движения призывающие к введению стандартов понятности Закона. В Республике Казахстан к настоящему времени не проводилось систематического исследования сложности законодательных актов и не разрабатывались рекомендации по написанию лёгких для понимания норм.

Представляемый аналитический отчет преследует две цели:

  1. Дать первый в Республике обзорный анализ читаемости Законов на материале текстов 387 нормативно-правовых актов в казахской и русской версиях средствами компьютерной лингвистики;
  2. На основе международного опыта и собственных разработок, предоставить список рекомендаций для улучшения читаемости юридических документов. Для оценки их качества было проведено анкетирование, в котором участникам предлагалось решить юридические кейсы на основе оригинальной или отредактированной версии Закона.

Основные результаты:

  • Законы на казахском языке обычно использует более простую лексику. Законы на русском языке при этом обычно значительно менее сложны синтаксически (т.е. предложения имеют более простую структуру);
  • В целом, Законы на казахском языке значительно проще написаны с т.зр. использованных метрик читаемости, однако оба набора номративных документов имеют крайне низкие метрики читаемости в абсолютных величинах;
  • Самые сложно-написанные области: промышленность, наука, нац. безопасность, оборона, строительство, финансы, гражданское право. Социально значимые Законы (например, в сфере соц. обеспечения) занимают промежуточные позиции. На наш взгляд, этот блок требует высокой понятности изложения, ведь, как мы можем ожидать, именно к нему будут обращаться граждане, которые скорее не решатся позволить себе услуги платного юриста;
  • Для того, чтобы ввести понятную “точку отсчета”, мы использовали для сравнения авторитетные и широко известные литературные источники - романы-эпопеи “Путь Абая” Мухтара Ауэзова и “Войну и мир” Льва Толстого для казахского и русского языков соответственно. И то и другое произведение значительно проще с т.зр. используемых метрик, чем любой Закон РК на соотвутствующем языке в выборке;

Ключевые методологические рекомендации (подромнее см. раздел “Читабельность правовых актов: Базовые подходы, алгоритмы и инструменты”):

  • Инструменты юридической техники:
    • Отказ от концепции нормы в вакууме:
      • Рассматривать каждую норму в контексте всего нормативного акта.
      • Избегать избыточной детализации и повторов, что упрощает толкование.
    • Использование детализированных заголовков:
      • Применять сложные заголовки для точного определения предмета регулирования.
      • Снижать риск расширительного толкования отдельных норм.
    • Принцип «Одна норма – одно значение»:
      • Обеспечить единообразное употребление терминов в пределах одной нормы.
      • Исключить неоднозначности и двойное толкование.
    • Детализация по необходимости:
      • Применять подробности только для предотвращения существенных ограничений прав личности.
      • Сохранять баланс между защитой прав и сохранением читабельности.
    • Разделение самостоятельных производных норм (субнорм) на отдельные предложения:
      • Выносить уточняющие положения в отдельные предложения для улучшения восприятия текста.
  • Общелингвистические инструменты:
    • Лаконичность и формальная определенность:
      • Упрощать синтаксические конструкции и сокращать сложные предложения.
      • Исключать пассивные обороты и заменять сложные юридические термины на общеупотребительные (с учетом специфики).
    • Наглядность изложения:
      • Четко структурировать текст, разделяя его на абзацы и используя списки/перечни.
      • Выделять ключевые положения и применять принципы legal design.
    • Исключение канцелярита:
      • Заменять сложные бюрократические выражения на более понятные и доступные формулировки.
  • Алгоритм трансформации текста (с использованием AI):
    • Проведение анализа объективных показателей (индексы читаемости).
    • Применение AI для предварительного преобразования текста.
    • Верификация пределов правового регулирования.
    • Оценка результатов с целью окончательной редакционной доработки

 

Введение

Понятие “читаемости” может показаться неразрывно связанным с человеческим восприятием сложности того или иного текста. Однако, благодаря развитию компьютерной лингвистики за последние полвека “читаемость” получила большое количество формальных метрик, по которым можно быстро оценить и сравнить друг с другом разные тексты.

Сфера применения таких оценок крайне широка. В целом, её можно свести к важному принципу - чем более рискованной для жизни человека является область, тем более понятные для читателя должны быть в ней тексты. Так, не возникает вопросов, почему правила безопасности или медицинские описания процедур (обычно пишутся) просто и доходчиво. В случае их нарушения жизнь человека может оказаться под угрозой .

Можем ли мы сказать то же про читаемость нормативно-правовых актов? В научной литературе наблюдается большой дебат по этому вопросу. С одной стороны, сложно написанный юридический документ может привести к его неправильной трактовке гражданином, что может обернуться рисками для его имущества и карьеры. Понимание важности понятно написанного правового текста лежит в основании ряда политических инициатив, например “The Plain English Movement” (англ. “Движение понятного английского языка”). С другой стороны, у подобных проектов есть и критика. Поскольку, зачастую, упрощать документ без потери его юридического смысла представляется затруднительным .

На наш взгляд, необходимо искать золотую середину и, с помощью как лингвистических так и юридических методов, находить документы социально-значимые документы, которое можно и нужно преподносить более простым языком.

Для этого, нам необходимо прежде всего “картографировать местность”. Сейчас читатель без турда сможет узнать формальную сложность любого текста, используя специальные сервисы . Однако мы не располагаем информацией о том, как в целом можно описать все нормативные акты в Республике Казахстан с точки зрения их читаемости. Помимо этого открытым остается вопрос сравнения понятности написания одного закона в двух его версиях: на казахском и русском языках.

Представляемый аналитический отчет преследует две цели:

  1. Дать первый в Республике Казахстан (РК) обзорный анализ читаемости Законов на материале текстов 387 нормативно-правовых актов (НПА) в казахской и русской версиях, полученных с сайта ИПС “Әділет” . Анализ будет проводиться средствами компьютерной лингвистики;
  2. На основе международного опыта и собственных разработок, предоставить список рекомендаций для улучшения читаемости юридических документов. Для иллюстрации изменения формальных метрик читаемости при использовании рекомендаций мы сравним актуальную и отредактированные версии Закона РК от 4 мая 2010 года № 274-IV «О защите прав потребителей».

Важно отметить, изучение количественных показателей не отменяет важность юридического анализа текста и его смысла. Зачастую, правовой документ невозможно сделать простым. В работе мы стремимся обратить внимание перспективы для улучшения читаемости текста, открывающиеся благодаря использованию формальных тестов.

В первой части мы кратко опишем актуальный дебат об измерении читаемости текста. Затем перейдём к описанию данных и аналитической стратегии исследования. Последующий блок посвящен результатам анализа читаемости выборки казахстанских Законов. В четвертой части представлены рекомендации по повышению читабельности с иллюстрацией их применения на Законе «О защите прав потребителей» в последнем разделе.

Анализ читабельности Законов Республики Казахстан средствами компьютерной лингвистики

Анализ сложности нормативно-правовых текстов как исследовательская задача

Научная традиция по изучению восприятия и читаемости текстов существует с 1940-х гг. К настоящему времени в компьютерной лингвистике используются несколько десятков метрик, для оценки читаемости. В последние десятилетия идёт изучение того, как они оценивают сложность языков стран постсоветского пространства (например, русского языка ).

Благодаря появлению новых методов, стали появляться исследования по оценке корпусов (т.е. больших наборов) юридических текстов. Так, Руслан Кучаков и Денис Савельев изучили 458 тысяч текстов правовых актов Российской Федерации и нашли, что в 2000-2010-х гг. в России наблюдается снижение читаемости текстов НПА - падение их лексического разнообразия и усложнение структуры предложений. К наиболее сложно написанными документам, согласно исследованию, являются акты Конституционного Суда РФ и документы финансово-бюджетной сферы .

В другой работе Ольга Блинова и Никита Тарасов работали с 43 804 нормативными документами с целью дать общую оценку их читаемости. Авторы использовали 133 метрики и на их основе создавали прогнозную модель читаемости текста с использованием машинного обучения. В результате, полученная модель показала, что почти 95% изученных документов имеют сложность близкую к максимальной. Важной находкой стало выявление связи между сложностью документа и информацией об органе, который его подготовил. Жанр и сфера применения НПА имеют меньшее значение .

При этом, обращаясь к причинам сложности чтения НПА, исследователи выделяют терминологическую проблему. Именно понятия и специфическая лексика делает юридические тексты столь сложными для восприятия у обывателя (хотя, этот эффект имеет некоторую социально-демографическую специфику ). При этом, обсуждая перспективы улучшения читабельности правовых актов, юристы не готовы приносить в жертву прежде всего термины, на согласованности которых строится нормативная конструкция `.

Представленные выше работы оперируют большими массивами текстовых данных и у читателя может невольно сложиться вопрос - а действительно ли все эти формальные метрики (обычно разработанные изначально для германских языков) показывают нам реальную сложность текста? Если мы прочтем текст с наихудшими метриками, действительно ли мы посчитаем его сложным и тяжелым для воссприятия? Такие же вопросы рассматриваются в статье Арины Дмитриевой, которая сравнивала решения Конституционного суда России по одной из самых популярных формальных метрик (адаптированному тесту Флэша) и оценку от экспериментальной группы студентов, которые читатели те же решения. В результате, наблюдались небольшие различия в оценке сложности, однако их степень не была значительной и говорит скорее о тонкостях интерпретации конкретных документов, а не общей структуре отношений сложных и простых юридических текстов. Такие результаты дают нам легитимность для проведения формального анализа .

На основе рассмтренных работ, мы выделяем несколько метрик. Часть из них является крайне простыми, в то время как дургая основывается на чуть более сложных рассчетах . Полный список проанализированных метрик и информация об их рассчете приведена в Приложении А1.

Конвенциональные метрики, используемые в работах выше имеют два существенных недостатка С одной стороны они разработаны, в первую очередь, для английского языка и не адаптированы для тюркских или славянских языков (редкое исключение - тест Флэша ). С другой, их применение предполагает анализ не столько нормативных актов, сколько любых текстов вообще. В силу особой специфики юридического документа это ставит вопрос о том, насколько точно они способны оценивать его читаемость.

В качестве решения обозначенной трудности, стоит уделить отдельное внимание Индексу синтаксической сложности правовых документов от НИУ ВШЭ .

Индекс основан как на количетвенном анализе корпуса российского законодательства, так и на экспериментальной оценке. В рамках эксперимента авторы изучали связь различных синтаксических характеристик текста с усложнением его понимания. Изначально было отобрано 10 характеристик для анализа. Для их оценки были отобраны 10 фрагментов законодательных актов, в которых значение одной характеристики было высоким, а всех остальных - умеренным. Каждый фрагмент был осложнён только по одной характеристике. В качестве контрольного испытания использовался также одинадцатый фрагмент, где значения всех изучаемых метрик было ниже аналогичных медианных значений по всему корпусу законодательства. Во время эксперимента испытуемым предлагалось прочитать фрагмент, ответить на несколько вопросов по его содержанию, дать субъективную оценку сложности. Помимо этого измерялоь время чтения фрагмента в секундах. .

В результате было выявлено, какие синтаксические характеристики текста НПА сильнее всего оказывают эффект на качество прочтения. Так, к самым важным характеристикам были отнесены: доля глаголов в оцениваемом тексте, количество слов в субстантивных именных словосочетаниях, количество слов в абзацах в каждом абзаце оцениваемом тексте и среднее расстояние между зависимыми словами в оцениваемом тексте. На основе этих находок, были составлены 13 метрик, на основе которых получен обобщающий их индекс. Более подробная информация об индексе представлена в .

К настоящему времени, Индекс синтаксической сложности правовых документов от НИУ ВШЭ является самой проработанной метрикой читаемости нормативных документов на русском языке. Важно отметить отсутствие альтернатив индексу для казахского языка. Его разработка требует отдельного исследования.

Данные и аналитическая стратегия

Данные

При подготовке данных, нашей задачей было создать корпус основных нормативно-правовых актов, к которым, может обратиться житель Республики Казахстан для понимания своих прав в том или ином инциденте. Это определило выборку документами, которые имеют статус “Закон”, регулитруют отношения внутри страны в определенных сферах правоотношений.

В работе мы использовали тексты Законов Республики Казахстан и их метаданные, доступные на сайте ИПС “Әділет” на казахском и русском языках. Изначально были получены все тексты раздела “Закон” (3 265 актов). После этого, из набора были убраны все документы международных договоров, информации о внесении изменений, дополнений и текстов, признанных утратившими силу. Помимо этого, для анализа современного периода нормотворчества, в выборку были включены НПА принятые после 2000 г. включительно. Акты, не имеющие перевода между казахской и русской версиями были исключены, также как и документы менее чем со 500 словами.

Из этих документов были удалены все технические детали, не имеющие прямой связи с читаемостью основной части текста: примечание РЦПИ, сноски, пояснения (например “исключен Законом РК от” или “Вниманию пользователей!”), преамбулы, названия разделов, статей. Также были полностью удалены блоки “Заключительные положения” и “Переходные положения”. Для части метаданных документов были незначительно скорректированы их юридические сферы правотворчества (например, категории ‘Охрана и использование земель’,‘Охрана окружающей среды’,‘Охрана и использование животного мира’,‘Охрана и использование недр’ были объеденены как ‘Природо-Недроохрана’).

В результате, получившаяся выборка Законов включает 387 текстов. Для обработки они были, токенезированы, лемматизированы. К ним была применена морфо-синтаксическая разметка. В случае казахского корпуса использована модель kazdet . В случае русского - библиотеки Morphology и Syntax из проекта Natasha , а также udpipe, модель russian-syntagrus 2.5 для сравнения . Вычисления производились на языках R и Python.

Стоит отметить, в силу недостаточной проратобанности моделей морфо-синтаксической разметки на казахском языке к настоящему времени, можно ожидать неточностей метрик в первую очередь для государственного языка РК.

Аналитическая стратегия

Нашей первой задаче являлось определение ключевых конаенциональных метрик, которые наилучшим образом разделят документы на сложно-/легко-читаемые. Для этого, на 12 изначально отобранных метриках (см. Приложение А1) был проведен анализ главных компонент. С помощью него были найдены показатели, которые, с одной стороны, наиболее полным образом отражают вариацию данных. С другой, важно было отобрать показатели, которые наилучшим образом будут адаптированы для казахского и русского языков. Из-за наличия выбросов по ряду тестов, крайние значения метрик были винсоризированы по 1 и 99 перцентилю распределения данных.

Были отобраны две основные метрики:

  • MeanDepLen (англ. Mean Dependency Length) - Средняя длинна между зависимыми словами в предложении (в словах). Количество слов между основным словом и зависимым от него (например, между глаголом и подлежащим) можно представить как оценку сложности текста. Эта мера направлена на анализ, прежде всего синтаксической сложности - длинные и сложные по структуре предложения, зачастую, не легки для восприятия. Чем меньше значение MeanDepLen, тем более легким для понимания является текст;

  • Адаптированный тест Флэша (англ. Flesch Test) - Одна из самых ихвестных метрик читаемости. Она основана на простой идее - чем меньше слов мы встречаем в предложениях и чем короче слова, тем более простым является текст. В рассчете индекса основным показателем является прежде всего длинна слов. Таким образом, тест измеряет прежде всего сложность слов, которые встречаются в тексте (подробнее см. Приложение А1). Чем больше индекс, тем более легким для понимания является текст.

Помимо этого, отдельно, мы оцениваем документы по Индексу синтаксической сложности правовых документов от НИУ ВШЭ (см. Приложении А2). Чем больше индекс, тем более легким для понимания является текст.

Результаты

Анализ читаемости на основе общепринятых метрик

Анализ документов

Проиллюстрируем значения двух выбранных конвенциональных метрик для всех Законов в выборке. На Рисунках 1 и 2 представлены значения теста Флэша по оси X и MeanDepLen для оси Y для всех 387 Законов для казахского и русского языков соответственно.

Напомним:

  • Чем больше значение теста Флэша, тем более легким для понимания является текст;
  • Чем меньше значение MeanDepLen, тем более легким для понимания является текст.

Для простоты интерпретации, мы перевернули ось Y, так, что её большие значения находятся внизу, а меньшие наверху. В результате, самые простые тексты расположены в правом верхнем углу. Самые сложные - в левом нижнем.

Подложка графика раскрашена разными цветами. Красная область - критически сложно читаемые НПА исходя из описаний работы теста, найденных в литературе . Желтая область - сложно читаемые НПА. Зеленая область - Нормально читаемые НПА.

Чтобы лучше понимать отношения велечин, мы ввели для сравнения авторитетные и широко известные литературные источники для сравнения. Романы-эпопеи “Путь Абая” Мухтара Ауэзова и “Войну и мир” Льва Толстого для казахского и русского языков соответственно. Их значения выходят далеко за пределы графика в положительную сторону и поэтому показаны стрелкой.

Законодательство на казахском языке

Рисунок 1. Значения адаптированного теста лёгости чтения Флэша и MeanDepLen для выборки Законов РК (на казахском языке)

График интерактивный. Наведите на интересующую область, чтобы узнать её значение.
Размер точки выражает длинну текста.
Красная область - критически сложно читаемые НПА. Желтая область - сложно читаемые НПА. Зеленая область - Нормально читаемые НПА.
Обратите внимание - ось Y перевернута. 0 расположен сверху, а максимальное значение снизу.
Для сравнения приведены значения для книги Мухтара Ауэзова “Абай” (Кiтап I)

______________________

Анализируя график, мы можем наблюдать динамику от сложных текстов, написанных длинными словами и сложносотавными предложениями в левом нижнем углу, до Законов, в которых встречаются относительно простые (с точки зрения метрик для корпусов) тексты в правом верхнем углу.

Стоит отметить любопытную разницу между корпусами языков. По сравнению с русскоязычным корпусом часть казахоязычных версий законов написаны преимущественно не длинными словами (исходя из индекса Флэша), но при этом в среднем имеют более высокие значения MeanDepLen, что свидетельствует о сложной структуре предложений. В результате, часть из НПА находятся в зоне удовлетворительной читабельности, но при этом разительно отличаются от романа М. Ауэзова с т.зр. простоты использованных слов и длинны предложений. “Путь Абая” написан значительно проще.

В то же время в русскоязычном корпусе мы не встречаем законов, относящихся к “зеленой зоне”. Это обусловлено прежде всего лексикой - в среднем используются длинные слова и длинные предложения (что иллюстрирует индекс Флэша). При этом сложность предложений (MeanDepLen) меньше чем для казахоязычных аналогов. Также как и в казахоязычном корпусе, литературный пример (“Война и мир” Л. Толстого) написана значительно проще всех исследуемых законов.

В Таблице 1 и 2 представлен список 10 самых сложно- и простонаписанных Законов, с т.зр. двух анализируемых метрик.

Таблица 1. Топ-10 самых понятных и топ-10 самых сложнонаписанных документов из выборки Законов РК (на казахском языке)

Table 1: Table 2:
Санат Тақырып Сілтеме
Ең қиын:
Қорғаныс өнеркәсібі және мемлекеттік қорғаныстық тапсырыс туралы https://adilet.zan.kz/kaz/docs/Z1900000236
Ғылыми және (немесе) ғылыми-техникалық қызмет нәтижелерін коммерцияландыру туралы https://adilet.zan.kz/kaz/docs/Z1500000381
Валюталық реттеу және валюталық бақылау туралы https://adilet.zan.kz/kaz/docs/Z1800000167
Ветеринария туралы https://adilet.zan.kz/kaz/docs/Z020000339_
Ғылым туралы https://adilet.zan.kz/kaz/docs/Z1100000407
Индустриялық-инновациялық қызметті мемлекеттік қолдау туралы https://adilet.zan.kz/kaz/docs/Z1200000534
Жаңартылатын энергия көздерін пайдалануды қолдау туралы https://adilet.zan.kz/kaz/docs/Z090000165_
Қаржы нарығы мен қаржы ұйымдарын мемлекеттiк реттеу, бақылау және қадағалау туралы https://adilet.zan.kz/kaz/docs/Z030000474_
Сақтандыру қызметі туралы https://adilet.zan.kz/kaz/docs/Z000000126_
Агломерацияларды дамыту туралы https://adilet.zan.kz/kaz/docs/Z2300000181
Ең қарапайым:
Қылмыстық жолмен алынған кірістерді заңдастыруға (жылыстатуға) және терроризмді қаржыландыруға қарсы іс-қимыл туралы https://adilet.zan.kz/kaz/docs/Z090000191_
Үшінші елдерге қатысты арнайы қорғау, демпингке қарсы және өтемақы шаралары туралы https://adilet.zan.kz/kaz/docs/Z1500000316
Қорғаныс өнеркәсібі және мемлекеттік қорғаныстық тапсырыс туралы https://adilet.zan.kz/kaz/docs/Z1900000236
Төлемдер және төлем жүйелері туралы https://adilet.zan.kz/kaz/docs/Z1600000011
Сыбайлас жемқорлыққа қарсы іс-қимыл туралы https://adilet.zan.kz/kaz/docs/Z1500000410
Жаңартылатын энергия көздерін пайдалануды қолдау туралы https://adilet.zan.kz/kaz/docs/Z090000165_
Қазақстан Республикасында зейнетақымен қамсыздандыру туралы https://adilet.zan.kz/kaz/docs/Z1300000105
Коллекторлық қызмет туралы https://adilet.zan.kz/kaz/docs/Z1700000062
Экстремизмге қарсы іс-қимыл туралы https://adilet.zan.kz/kaz/docs/Z050000031_
Мемлекеттiк сатып алу туралы https://adilet.zan.kz/kaz/docs/Z1500000434
Положение приведено по значениям адаптированного теста лёгости чтения Флэша и MeanDepLen.
Законодательство на русском языке

Рисунок 2. Значения адаптированного теста лёгости чтения Флэша и MeanDepLen для выборки Законов РК (на русском языке)

График интерактивный. Наведите на интересующую область, чтобы узнать её значение.
Размер точки выражает длинну текста.
Красная область - критически сложно читаемые НПА. Желтая область - сложно читаемые НПА. Зеленая область - Нормально читаемые НПА.
Обратите внимание - ось Y перевернута. 0 расположен сверху, а максимальное значение снизу.
Для сравнения приведены значения для книги Льва Толстого “Война и мир”

______________________

Стоит отметить любопытную разницу между корпусами языков. По сравнению с русскоязычным корпусом часть казахоязычных версий законов написаны преимущественно не длинными словами (исходя из индекса Флэша), но при этом в среднем имеют более высокие значения MeanDepLen, что свидетельствует о сложной структуре предложений. В результате, часть из НПА находятся в зоне удовлетворительной читабельности, но при этом разительно отличаются от романа М. Ауэзова с т.зр. простоты использованных слов и длинны предложений. “Путь Абая” написан значительно проще.

В то же время в русскоязычном корпусе мы не встречаем законов, относящихся к “зеленой зоне”. Это обусловлено прежде всего лексикой - в среднем используются длинные слова и длинные предложения (что иллюстрирует индекс Флэша). При этом сложность предложений (MeanDepLen) меньше чем для казахоязычных аналогов. Также как и в казахоязычном корпусе, литературный пример (“Война и мир” Л. Толстого) написана значительно проще всех исследуемых законов.

В Таблице 1 и 2 представлен список 10 самых сложно- и простонаписанных Законов, с т.зр. двух анализируемых метрик.

Таблица 2. Топ-10 самых понятных и топ-10 самых сложнонаписанных документов из выборки Законов РК (на русском языке)

Table 3: Table 4:
Категория Название Ссылка
Самые сложные:
О поддержке использования возобновляемых источников энергии https://adilet.zan.kz/rus/docs/Z090000165_
Об оборонной промышленности и государственном оборонном заказе https://adilet.zan.kz/rus/docs/Z1900000236
О саморегулировании https://adilet.zan.kz/rus/docs/Z1500000390
О Семипалатинской зоне ядерной безопасности https://adilet.zan.kz/rus/docs/Z2300000016
Об информатизации https://adilet.zan.kz/rus/docs/Z1500000418
Об обязательном гарантировании депозитов, размещенных в банках второго уровня Республики Казахстан https://adilet.zan.kz/rus/docs/Z060000169_
О государственном мониторинге собственности в отраслях экономики, имеющих стратегическое значение https://adilet.zan.kz/rus/docs/Z030000490_
О государственной поддержке индустриально-инновационной деятельности https://adilet.zan.kz/rus/docs/Z1200000534
О промышленной политике https://adilet.zan.kz/rus/docs/Z2100000086
О науке https://adilet.zan.kz/rus/docs/Z1100000407
Самые понятные:
О поддержке использования возобновляемых источников энергии https://adilet.zan.kz/rus/docs/Z090000165_
О противодействии легализации (отмыванию) доходов, полученных преступным путем, и финансированию терроризма https://adilet.zan.kz/rus/docs/Z090000191_
О специальных защитных, антидемпинговых и компенсационных мерах по отношению к третьим странам https://adilet.zan.kz/rus/docs/Z1500000316
О Фонде компенсации потерпевшим https://adilet.zan.kz/rus/docs/Z1800000131
О пенсионном обеспечении в Республике Казахстан https://adilet.zan.kz/rus/docs/Z1300000105
Об электроэнергетике https://adilet.zan.kz/rus/docs/Z040000588_
О коллекторской деятельности https://adilet.zan.kz/rus/docs/Z1700000062
О страховой деятельности https://adilet.zan.kz/rus/docs/Z000000126_
О государственном регулировании, контроле и надзоре финансового рынка и финансовых организаций https://adilet.zan.kz/rus/docs/Z030000474_
О платежах и платежных системах https://adilet.zan.kz/rus/docs/Z1600000011
Положение приведено по значениям адаптированного теста лёгости чтения Флэша и MeanDepLen.

Анализ читаемости на основе Индекса синтаксической сложности правовых документов от НИУ ВШЭ

На Рисунке 3 представлено распределение Индекса синтаксической сложности НИУ ВШЭ для двух корпусов Законов РК: на русском и казахском языке.

По оси X показано количество документов, по оси Y - Индекс сложности НИУ ВШЭ (чем больше меньше, тем легче). Обратите внимание, что для простоты интерпретации ось Y перевернута так, что 0 расположен сверху, а максимальное значение (65) снизу.

В связи с этим, если значения расположены сверху графика, то они говорят о том, что эта часть документов написана просто. Действует и обратный принцип - если значения внизу графика, мы говорим об их сложности с т.зр. формальных метрик читаемости.

Рисунок 3. Значения Индекса синтаксической сложности правовых документов от НИУ ВШЭ для выборки Законов РК (на казахском языке)

Чем больше значения индекса, тем более понятен текст.
Обратите внимание - ось Y перевернута. 0 расположен сверху, а максимальное значение снизу.

______________________

На графике видно то же отношение, что было отмечено выше, но выраженное уже одним индексом - русскоязычный корпус Законов намного сложнее казахоязычного.

Стоит сделать ограничение, что Индекс НИУ ВШЭ разработан прежде всего для русского языка и, в связи с этим, можно ожидать, что он может давать смещения для казахского корпуса. Именно по этой причине мы также используем для анализа конвенциональные метрики выше, которые менее сенситивны для языковых различий.

Анализ предметных областей

В этом разделе мы предлагаем обратиться к средним значениям метрик по категориям нормотворчества, зафиксированных в данных. Рисунки 3 и 4 идентичны Рисункам 1 и 2, с тем исключением, что в них точка иллюстрирует не отдельный НПА, а среднее значения показателя по категории. Размер точки отображает количество агрегированных Законов.

Напомним:

  • Чем больше значение теста Флэша, тем более легким для понимания является текст;
  • Чем меньше значение MeanDepLen, тем более легким для понимания является текст.

Для простоты интерпретации, мы перевернули ось Y, так, что её большие значения находятся внизу, а меньшие наверху. В результате, самые простые тексты расположены в правом верхнем углу. Самые сложные - в левом нижнем.

Чтобы лучше понимать отношения велечин, мы ввели для сравнения авторитетные и широко известные литературные источники для сравнения. Романы-эпопеи “Путь Абая” Мухтара Ауэзова и “Войну и мир” Льва Толстого для казахского и русского языков соответственно. Их значения выходят далеко за пределы графика в положительную сторону и поэтому показаны стрелкой.

Законодательство на казахском языке

Рисунок 4. Значения адаптированного теста лёгости чтения Флэша и MeanDepLen для предметных областей законодательства РК (на казахском языке)

График интерактивный. Наведите на интересующую область, чтобы узнать её значение.
Размер точки выражает длинну текста.
Обратите внимание - ось Y перевернута. 0 расположен сверху, а максимальное значение снизу.
Для сравнения приведены значения для книги Мухтара Ауэзова “Абай жолы” (Кiтап I)

______________________

Исходя из графиков, можно ожидаемо отметить список категорий с самым сложным языком: промышленность, наука, нац. безопасность, оборона, строительство, финансы, гражданское право. В то же время, самыми легким для восприятия сферами становятся уголовное право и процессуальные законы. Возможно причина этого - высокое дробление текстов на короткие статьи в последних (что снижает расстояние между зависимыми словами MeanDepLen) и использование относительно не длинных слов (что прежде всего повышает Индекс Флэша).

Если обратиться к Законам социальной сферы, то мы обнаружим их значения в середине нашей выборки. Как уже отмечалось выше, именно этот блок требует высокой понятности изложения, ведь, как мы можем ожидать, именно к нему будут обращаться граждане, которые скорее не решатся позволить себе услуги платного юриста. На наш взгляд позиция именно этой сферы должна быть улучшена в первую очередь.

Законодательство на русском языке

Рисунок 5. Значения адаптированного теста лёгости чтения Флэша и MeanDepLen для предметных областей законодательства РК (на русском языке)

График интерактивный. Наведите на интересующую область, чтобы узнать её значение.
Размер точки выражает длинну текста.
Обратите внимание - ось Y перевернута. 0 расположен сверху, а максимальное значение снизу.
Для сравнения приведены значения для книги Льва Толстого “Война и мир”

______________________

Исходя из графиков, можно ожидаемо отметить список категорий с самым сложным языком: промышленность, наука, нац. безопасность, оборона, строительство, финансы, гражданское право. В то же время, самыми легким для восприятия сферами становятся конституционный строй, уголовное право и процессуальные законы. Возможно причина этого - высокое дробление текстов на короткие статьи в последних (что снижает расстояние между зависимыми словами MeanDepLen) и использование относительно не длинных слов (что прежде всего повышает Индекс Флэша).

Если обратиться к Законам социальной сферы, то мы обнаружим их значения в середине нашей выборки. Как уже отмечалось выше, именно этот блок требует высокой понятности изложения, ведь, как мы можем ожидать, именно к нему будут обращаться граждане, которые скорее не решатся позволить себе услуги платного юриста. На наш взгляд позиция именно этой сферы должна быть улучшена в первую очередь.

Анализ предметных областей на основе Индекса синтаксической сложности правовых документов от НИУ ВШЭ

Повторим анализ категорий законодательства, но уже исходя из Индекса НИУ ВШЭ (Рисунки 6 и 7). Главное его отличие в том, что “уголовное право” как категория ушла из пятерки самых сложных. Согласно Индексу “образование” и “здравоохранение” показывают одни из самых плохих результатов по читаемости.

Законодательство на казахском языке

Рисунок 6. Значения Индекса синтаксической сложности правовых документов от НИУ ВШЭ для выборки Законов РК (на казахском языке)

Чем больше значения индекса, тем более понятен текст.

______________________

Законодательство на русском языке

Рисунок 7. Значения Индекса синтаксической сложности правовых документов от НИУ ВШЭ для выборки Законов РК (на русском языке)

Чем больше значения индекса, тем более понятен текст.

______________________

Временная динамика читаемости

Изменилась ли качество читаемости законов со временем? Мы пытаемся ответить на этот вопрос с помощью Рисунков 8 и 9. На них по оси X отвечена дата принятия Закона. По оси Y - его значение среди двух показателей: Индекса Флэша и MeanDepLen. Поскольку две метрики представлены в разных шкалах (Индекса Флэша для казахоязычного корпуса принимает значения от -10 до 45, а MeanDepLen от 10 до 27), их наобходимо нормализировать для корректного сравнения. В результате, по оси Y представлены относительные значения, которые стоит интерпретировать только в терминах “роста” или “падения” друг относительно друга.

В этой связи мы выидим, что специфика казахоязычного корпуса найденная ранее (сложность предложений при, относительно, коротких используемых словах) - усиливающаяся тенденция в течение всего изучаемого периода. Здесь важно отметить - мы не можем говорить о статистической значимости отличий (это требует отдельного исследования), а только о визуальных трендах.

В то же время, метрики корпуса Законов на русском языке не показывают заметных изменений с 2000 г.

Законодательство на казахском языке

Рисунок 8. Временная динамика читабельности текстов выборки Законов РК (на казахском языке)

Закрашенные области представляют стандартную ошибку измерения

______________________

Законодательство на русском языке

Рисунок 9. Временная динамика читабельности текстов выборки Законов РК (на русском языке)

Закрашенные области представляют стандартную ошибку измерения

______________________

 

Методические рекомендации. Читабельность правовых актов: Базовые подходы, алгоритмы и инструменты

Настоящее руководство разработано по итогам количественного анализа выше и в рамках реализации первого этапа пилотного проекта по повышению читабельности текста Закона Республики Казахстан от 4 мая 2010 года № 274-IV «О защите прав потребителей» (далее – Закон).

На данном этапе проекта осуществлена первичная трансформация текста Закона с использованием разработанного инструментария и проведена оценка промежуточных результатов.

Настоящее Руководство не является итоговым документом проекта и не носит исчерпывающего, всеобъемлющего характера. В нем представлена базовая методика работы с текстами правовых актов и наиболее универсальные инструменты повышения читабельности правовых норм.

Дальнейшая работа над проектом предполагает развитие разработанного инструментария, углубленную оценку результатов трансформации, а также издание второго тома Руководства, посвященного структуре правовых актов и юридическому дизайну.

Краткое практическое руководство

Инструменты повышения читабельности правовых норм разделены нами на две группы:

Инструменты юридической техники; Общелингвистические инструменты.

Наибольший интерес в контексте дефицита релевантных исследований представляют инструменты первой группы, разработанные командой проекта с учетом специфики казахстанского правотворчества.

Общелингвистические инструменты также адаптированы для решения задачи упрощения юридических текстов.

Инструменты юридической техники

Инструменты юридической техники сформулированы нами в виде простых универсальных правил, доступных к применению всеми субъектами законотворческого процесса.

Правило 1. «Отказ от концепции нормы в вакууме»

Суть: Ни одна норма права не существует в вакууме, она подчиняется логике соответствующего нормативного правового акта, дополняет и развивает иные его положения (равно как и положения вышестоящих актов). Соответственно, толкование и применение нормы осуществляется с учетом общего регуляторного контекста, что позволяет избежать ее излишней детализации.

Казахстанские же законотворцы при разработке текстов законов в настоящее время придерживаются противоположного подхода, который мы назвали «концепция нормы в вакууме».

Он заключается в том, что каждая норма (даже в структуре одной статьи) формулируется так, чтобы она была максимально самодостаточна и подлежала четкому и однозначному пониманию и применению без учета контекста нормативного правового акта, который ее содержит, и сопутствующего регулирования.

Именно этот подход, в большинстве случаев, лежит в основе излишней детализации правовых норм и частых необоснованных повторов в тексте правового акта.

В приведенном примере термин «профилактический контроль без посещения субъекта (объекта) контроля» неоднократно упоминается в нормах той же(!) статьи (в 6 из 8 предшествующих пунктов). Более того, в ней прямо указано, что это единственная форма профилактического контроля, доступная уполномоченному органу и его территориальным подразделениям. Однако термин, тем не менее, повторяется не только от нормы к норме, но даже в одном предложении, что существенно загромождает текст и усложняет восприятие.

Вот так могла бы выглядеть эта норма, переписанная с учетом существующего контекста правового регулирования:

«9. Если субъект контроля не согласен с нарушениями, указанными в рекомендации, выданной по его результатам, он имеет право направить возражения в уполномоченный орган или его территориальные подразделения. Возражения должны быть направлены в течение пяти рабочих дней, считая со следующего дня после получения рекомендации»

Правило 2. «Лучше сложный заголовок, чем сложная норма»

Суть: Регуляторный потенциал заголовков структурных элементов НПА должен быть расширен в целях использования их для детализации предмета правового регулирования и снижения рисков расширительного толкования отдельных норм.

В соответствии с пунктом 9 статьи 23 Закона Республики Казахстан «О правовых актах» требование о наличии заголовков у структурных элементов НПА служит для удобства их применения. При этом заголовки в обязательном порядке должны отражать предмет регулирования соответствующего структурного элемента (статьи, главы и т.д.).

В свою очередь, достаточно детализированный заголовок статьи способен четко определить заложенные в ней пределы правового регулирования.

Это, с одной стороны, снижает риски расширительного толкования самих норм в структуре статьи, а с другой – не сильно вредит читабельности, т.к. не затрагивает собственно правила поведения.

Правило 3. «Одна норма – одно значение»

Суть: В пределах одной правовой нормы одно и то же слово не может употребляться в разных значениях

В приведенном примере:

  • В первом случае слово «система» используется в значении информационной (цифровой) системы

  • Во втором случае это же слово используется в значении комплекса последовательных мероприятий, обеспечивающих эффективную защиту прав потребителей (пункт 2 статьи 42-1 Закона) Такая многозначность негативно отражается на понимании смысла правовой нормы.

Правило 4. «Детализация по необходимости»

Суть: Излишняя детализация приемлема, только если направлена на предотвращение существенных ограничений прав личности

Излишняя детализация не оправдана:

Насколько рядовой гражданин способен воспринять разницу между:

  • «просвещением в сфере защиты прав потребителей»

и

  • «повышением правовой грамотности потребителей в вопросах защиты своих прав»?

Особенно если учесть, что реализация и того, и другого достигается одними и теми же средствами (включение требований в ГОСО и организация системы информирования).

Более читабельная версия (без ущерба для правового статуса гражданина) могла бы выглядеть следующим образом:

«Статья 9. Право на информирование и просвещение в сфере защиты прав потребителей»

Пример другой формулировки права потребителя (подпункт 7 статьи 7 Закона), когда излишняя детализация оправдана:

В перечислении «как надлежащего, так и ненадлежащего качества» нет формальной необходимости, т.к. это две исчерпывающие характеристики. Соответственно, без вреда для смысла нормы можно было бы оставить просто слово «товар».

Однако в данном случае излишняя детализация заостряет внимание на всеобъемлющем характере права и создает дополнительную гарантию его соблюдения.

Таким образом, при оценке необходимости дополнительной (особенно излишней) детализации нормы следует руководствоваться двумя критериями:

  • Насколько негативно она отразиться на читабельности нормы;
  • Насколько существенных нарушений прав человека она позволит избежать.

При этом второй критерий является приоритетным.

Правило 5. «Субнормам – отдельные предложения»

Характерной особенностью казахстанского законотворчества является устойчивое стремление «втиснуть» в одно предложение не только само общее правило поведения, являющееся сутью нормы, но и все уточнения к нему. Эти уточнения, по сути, представляют собой самостоятельные производные нормы (субнормы), которые не имеют юридического смысла вне основной нормы, но, в то же время, с позиции обеспечения читабельности заслуживают отдельного предложения.

Пример объединения двух дефиниций в структуре одной нормы:

По смыслу нормы, основное разъясняемое понятие: «существенный недостаток технически сложного товара», однако цветом на рисунке выделена, по сути, иная субнорма, определяющая, что, в контексте основного понятия, подразумевают под собой «несоразмерные затраты времени».

Фактически, это два самостоятельных, но взаимосвязанных понятия. Размещение их в одном подпункте закона не противоречит логике правового регулирования, однако с позиции читабельности, дефиницию лучше разбить на два отдельных предложения. Например, так:

«14-2) существенный недостаток технически сложного товара – это такой недостаток, который:

- не может быть устранен вовсе (неустранимый недостаток);

- не может быть устранен без несоразмерных расходов и затрат времени;

- может привести к причинению вреда жизни, здоровью и (или) имуществу потребителя, окружающей среде. При этом несоразмерными затратами времени признается период времени, который превышает установленный законом срок или настолько затягивается, что интерес потребителя утрачивается ввиду потери актуальности или невозможности использования товара по целевому назначению»

Другой пример:

В данном случае в одном предложении объединились основное правило и целых три дополняющих правила – субнормы (выделены разными цветами).

Читабельная редакция данного пункта могла бы выглядеть, например, так:

«1. Покупатель вправе обменять непродовольственный товар на:

- аналогичный товар другого размера, формы, габарита, фасона, цвета, комплектации и тому подобное;

- другой товар (по соглашению с продавцом).

Обмен возможен в течение 14 дней с момента получения товара покупателем, если продавец не установил более длительный срок. Обмен осуществляется в месте покупки товара или в других местах, указанных продавцом (изготовителем). Если в процессе обмена возникает разница в цене, производится перерасчет»

 

Общелингвистические инструменты

Набор общелингвистических инструментов сформирован на основе базовых рекомендаций по упрощению текстов и повышению читабельности, адаптированных под нужды законотворческого процесса.

Правило 1. «Лаконичность и формальная определенность»

Текст акта должен быть кратким, четким и не допускать двойного толкования.

Основные принципы:

  • упрощение синтаксических конструкций;
  • сокращение сложных предложений;
  • устранение пассивных конструкций;
  • замена сложных юридических терминов на общеупотребительные (с учетом целесообразности).

Правило 2. «Наглядность»

Для удобства восприятия текста рекомендуется:

  • четкое разделение на абзацы;
  • использование списков и перечней правовых требований;
  • выделение ключевых положений в тексте правового акта;
  • внедрение инструментов legal design.

Правило 3. «Исключение канцелярита»

Сложные бюрократические выражения, в том числе юридические штампы, не несущие в себе регуляторного смысла, следует заменять на более понятные аналоги.

 

АЛГОРИТМ ТРАНСФОРМАЦИИ

В связи с широким распространением технологий Искусственного Интеллекта (AI), появлением работающих механизмов оптимизации и частичной автоматизации процессов, методика реализации пилотного проекта была полностью пересмотрена.

Этапы предварительного анализа текста конкретных норм и их первичной переработки «вручную» были заменены этапом AI преобразования.

Обновленный алгоритм трансформации текста НПА включает следующие стадии:

  1. Анализ объективных показателей (индексы читаемости)
  2. AI преобразование
  3. Верификация пределов правового регулирования
  4. Оценка результатов

Проверка повышения качества читаемости текстов, отредактированных исходя из рекомендаций

Для оценки продуктивности полученных рекомендаций, было проведено анкетирование по кейсам. Респондентам раздавались три варианта юридических кейсов, решить которые предлагалось исходя из статей в оригинальной или отредактированной версии. Всего было опрошено 48 человек по квотной выборке: (1) студенты и преподаватели MNU, которые обучаются или работают в Высшей Школе Права; (2) студенты и преподаватели MNU, которые обучаются или работают в других школах; (3) обслуживающий персонал MNU, без высшего образования.

Анализировалось соотношение числа правильных ответов на юридические кейсы с тем, на какую версию редакции опирались респондены при ответе на кейс (оригинальную или отредактированную исходя из методологии). Распределение ответов на кейсы в анкетах можно видеть на рисунках ниже:

Ниже представлены графические результаты логистической регрессии на вероятность правильно ответить на юридический кейс исходя из характеристик информантов.

Исходя из результатов мы можем оценить, что наличие текста в отредактированном виде статистически значимо повышает вероятность правильного ответа на кейс на 26-30% в двух случаях. В одном кейсе мы не видим значимых отличий.

Исходя из этой оценки, мы склонны считать, что повышение читабельности может позитивно сказываться на корректности восприятия НПА, однако этот эффект не абсолютен и может отличаться от кейса к кейсу.

Приложение

Приложение A1. Список проанализированных конвенциональных метрик

Список проанализированных метрик:

  • Длинна текста в словах;

  • Средняя длинна предложений в тексте;

  • Среднее число слогов в словах предложения - Считается, что чем более сложные слова используются в тексте, тем сложнее его читать. Самый простой способ оценки сложности слов - количество слогов в них;

  • Процент слов в тексте с четыремя и более слогами (на основе предыдущей);

  • TTR (англ. Type-Token Ratio) — Коэффициент лексического разнообразия текста. Текст можно считать более сложным в случае, если он содержит множество разнообразных слов (хотя, в случае юридических текстов, встречаются и прямо противоположные трактовки ). Формула для рассчета:

\(TTR = \frac{число\ уникальных\ слов}{общее\ число\ слов}\)

  • MeanDepLen (англ. Mean Dependency Length) - Средняя длинна между зависимыми словами в предложении (в словах). Длинные и сложные по структуре предложения, зачастую, не легки для восприятия. Количество слов между основным словом и зависимым от него (например, между глаголом и подлежащим) можно представить как оценку сложности текста.

  • Тест Флэша-Кинкайда (англ. Flesch-Kincaid Test) - Одна из самых ихвестных метрик читаемости. Она основана на простой идее, что чем меньше слов мы встречаем в предложениях и чем короче слова, тем более простым является текст. Формула для рассчета в адаптированном варианте для русского языка :

\[Flesch–Kincaid = 206,835 − 1,52 × средняя\ длинна\ предложения\ в\ словах − 65,14 × средняя\ длина\ слова\ в\ слогах\]

  • Индекс удобочитаемости Флеша (англ. Flesch Reading Ease Scale) - Шкала, на основе предыдущего теста, которая показывает сложность языка (от 0 до 100). Хорошо разработана в первую очередь для германских языков.

  • Индекс Колман-Лиау (англ. Coleman-Liau Index) - Тест, который даёт индекс (от 1 до 12), оценочно равный количеству лет образования необходимого для понимания текста . Хорошо разработана в первую очередь для германских языков. Формула для рассчета:

\(Coleman–Liau = 0.1579(\frac{количество\ уникальных\ слов}{количество\ слов} × 100) + 0.0496 (\frac{количество\ слов}{количество\ предложений})\)

  • SMOG (англ. Simple Measure of Gobbledygook (Простая мера несуразицы)) - Альтернативный способ рассчета количества лет образования, необходимых для понимания текста. Формула для рассчета:

\(SMOG = 1.043 \sqrt[]{количество\ слов\ c\ более\ чем\ тремя\ слогами × \frac{30}{количество \ предложений}} +3.1291\)

  • ARI (англ. Automated Readability Index) - Вариация предыдущих индексов. Формула для рассчета:

\(ARI = 4.71(\frac{количество\ букв\ в\ тексте}{количество\ слов\ в\ тексте})+0.5(\frac{количество\ слов\ в\ тексте}{количество\ предложений\ в \тексте})-21.43\)

  • LIX index (швед. Läsbarhetsindex) - Адаптированный индекс читаемости для шведского языка (с более длинными словами, чем в английском) : Формула для рассчета:

\(LIX = \frac{число\ слов}{число\ пробелов}+\frac{число\ слов\ с\ более\ чем\ 6\ буквами × 100}{число\ слов}{число\ пробелов}\)

Приложение A2. Индекс синтаксической сложности правовых текстов НИУ ВШЭ

Индекс синтаксической сложности правовых текстов НИУ ВШЭ разработан командой Института государственного и муниципального управления НИУ ВШЭ в 2022 г. Оценить документ по Индексу можно с помощью специально онлайн приложения . Детализировано индекс описан в статьях и книге авторского коллектива .

Сам индекс состоит из следующих метрик:

Метрика Интерпретация
1 normГЛ Нормированное значение доли глаголов от общего количества слов в тексте
2 normСИСсредн Нормированное значение среднего количества слов в субстантивных именных словосочетаниях в тексте
3 normСИСмакс Нормированное значение среднего из максимальных значений количества слов в субстантивных именных словосочетаниях в структурных элементах текста
4 normПРсредн Нормированное значение среднего количество слов в абзацах по тексту
5 normПРмакс Нормированное значение среднего из максимальных значений количества слов в абзацах в структурных элементах текста
6 normРЗСсредн Нормированное значение среднего расстояния между зависимыми словами в предложении в тексте
7 normРЗСмакс Нормированное значение среднего из максимальных значений расстояния между зависимыми словами в предложении в структурных элементах текста
8 normПОсредн Нормированное значение среднего количества причастных оборотов в тексте
9 normПОмакс Нормированное значение среднего из максимальных значений количества причастных оборотов в структурных элементах текста
10 normСПсредн Нормированное значение среднего количества слов в предложениях в тексте
11 normСПмакс Нормированное значение среднего из максимальных значений количества слов в предложениях в структурных элементах текста
12 normГОсредн Нормированное значение среднего количества грамматических основ в предложениях по тексту
13 normГОмакс Нормированное значение среднего из максимальных значений количества грамматических основ в предложениях по структурным элементам текста

 

Каждая из метрик отнормирована по значению её наивысшего показателя в корпусе российского законодательства . После этого метрики сводятся в единый индекс по формуле:

\[ ИСЗ = (normГЛ × 0,18 + \\ normСИСсредн × 0,08 + \\ normСИСмакс × 0,08 + \\ normПРсредн × 0,075 + \\ normПРмакс × 0,075 + \\ normРЗСсредн × 0,075 + \\ normРЗСмакс × 0,075 + \\ normПОсредн × 0,07 + \\ normПОмакс × 0,07 + \\ normСПсредн × 0,055 + \\ normСПмакс × 0,055 + \\ normГОсредн × 0,055 + \\ normГОмакс× 0,055) × 100 \]