Перплексия и burstiness: как детекторы отличают текст человека от ИИ
Детекторы ИИ не сравнивают текст с базой источников — они оценивают, как он написан статистически. В основе большинства алгоритмов, включая модуль Антиплагиат.ВУЗ и GPTZero, лежат две метрики: perplexity (перплексия) и burstiness. Разберём, что они означают и почему по ним так легко узнать нейросеть.
Перплексия — насколько предсказуемо слово
Перплексия измеряет, насколько «удивительным» для языковой модели оказывается следующее слово в тексте. Нейросеть генерирует текст, выбирая наиболее вероятное продолжение фразы — поэтому её перплексия низкая: почти каждое следующее слово легко угадать по контексту. Живой автор часто выбирает менее очевидные формулировки, вставляет неожиданные сравнения и обороты — перплексия его текста выше.
Burstiness — перепады сложности между предложениями
Burstiness показывает, насколько неравномерен текст по длине и сложности предложений. Живой человек пишет «рывками»: короткое предложение, потом длинное с придаточными, потом снова короткое — как будто мысль формулируется на ходу. Нейросеть в среднем выдаёт более ровный поток — предложения близкой длины и структуры идут одно за другим. Низкий burstiness — один из самых надёжных сигналов генерации.
Почему эти метрики трудно обмануть
Синонимайзер и даже «очеловечиватель текста» меняют отдельные слова, но не перестраивают статистику всего документа: перплексия и burstiness считаются по большим фрагментам, а не по отдельным фразам. Попросить нейросеть «написать текст менее гладко» тоже не помогает всерьёз — модель всё равно опирается на наиболее вероятные продолжения, просто с меньшей уверенностью. Реальный разброс сложности предложений возникает только тогда, когда текст действительно формулирует человек, а не имитирует черновик.
Что это значит на практике
Если работу вернули с высоким процентом ИИ, косметическая правка формулировок не изменит статистику текста в целом — нужно переписывать абзацы заново своими словами, с собственной логикой изложения. Как это выглядит в отчёте Антиплагиат.ВУЗ и других детекторов, подробно показано в статье /blog/proverka-na-ii-v-vuzah.
Понимание механики детекторов — ровно то, чем пользуются авторы «Соавтора»: тексты пишут вручную, без нейросетей, поэтому перплексия и burstiness у них естественные, «человеческие». Подробнее об услуге — /proverka-na-ii
