Понятно ,что информация спорна и по большому счету ничего не значит без должной подоплеки. Как и любая статистика или другие "строгие научные данные". Просто интересная штука.
Подробности работы анализатора постараюсь выяснить у создателя.
Но судя по тому, что анализатор подсчитывает частоту частей речи и "словопар" в тексте, а первым пунктом в разделе "Активный словарный запас" является "Использовано
уникальных слов" - то различные формы одного слова все же не учитываются (ну или по крайней мере фильтруются в какой-то мере).
Кстати - у Лингвоанализатора есть и другое (вообщем-то и являющееся целевым) назначение - атрибутация текстов. "Вероятностное установление авторства". Возвращаясь к тем же Олдям - некоторые ранние вещи (4 произведения из Бездны голодных глаз - Дорога, Войти в образ, Восставшие из рая, Ожидающие на перекрестках и упоминавшися "Путь меча") не похожи на всех остальных Олдей, те - анализатор считает, что Дорога, Войти в образ и Ожидающие на перекрестках написаны скорее М. и С. Дяченко, а "Восставшие из рая" - Олегом Дивовым.
После "Пути меча" (который по мнению "алгебры" написал Рыбаков) таких проколов вроде нет. Как предположил создатель программы - в ранних вещах стил "устаканивался" и кто-то из авторов тянул одеяло на себя в больше мере или еще что-то. Потом авторы "приспособились" и стиль "выровнялся".
Что "Шутиха" (46%), что "Дайте им умереть" (66%), что "Мессия очищает диск" (59%), что "Богадельня" (62%) написаны "скорее всего Олдями" (те написаны другими авторами в базе с меньше вероятностью).
Хотя и далее случаются "проколы" - "Мага в законе" "скорее" написал Андрей Валентинов (57%) или Олег Дивов (52%), и только на третьем месте - Г.Л.Олди (50%).
UPD. Нашел ссылку на сайт, на котором есть информация о том "движке", что использует анализатор сайта. Могу кинуть, если кому интересно.
Цитата
Наши технологии базируются на многоуровневом представлении естестевенного языка, которое, в свою очередь, было заимствовано у системы ФРАП (Система французско-русского автоматического перевода была разработана коллективом лаборатории машинного перевода Всесоюзного центра переводов совместно с коллективом лаборатории машинного перевода МГПИИЯ им М. Тореза. 1976-1986 ГГ.)
Компоненты, составляющие языковую модель, - лингвистические процессоры, которые друг за другом обрабатывают входной текст. Вход одного процессора является выходом другого. Выделяются следующие компоненты:
* Графематический анализ. Выделение слов, цифровых комплексов, формул и т.д. (подробнее)
* Морфологический анализ. Построение морфологической интерпретации слов входного текста.(подробнее)
* Синтаксический анализ. Построение дерева зависимостей всего предложения.(подробнее)
* Семантический анализ. Построение семантического графа текста.(подробнее)
Для каждого уровня разрабатывался свой язык представления. Язык представления, как полагается, состоит из констант и правила их комбинирования. На графематическом уровне константами были графематические дескрипторы (ЛЕ – лексема, ЦК – цифровой комплекс и т.д.) На морфологическом уровне – граммемы (рд – родительный падеж, мн -множественное число). На синтаксическом – названия отношений и групп (ПОДЛ – отношение между подлежащим и сказуемым, ПГ - предложная группа). На семантическом – семантические категории и отношения.
С каждого уровня представления можно сделать переход к такому же представлению на другом естественном языке (трансфер), что позволяет осуществлять перевод, даже если "глубокий" (семантический) анализатор не смог обработать текст. Основой для построения уровней служили результаты работы предыдущих этапов, но, что важно, последующие анализаторы также могли улучшить представление предыдущих. Например, для какого-то предложения синтаксический анализатор не смог построить полного дерева зависимостей, тогда, возможно, семантический анализатор сможет спроектировать им построенный семантический граф на синтаксис.
Ну и так далее ...