пятница, 25 марта 2016 г.

Научи меня плохому

Давным давно у нас был Главный Постоянный Клиент за границей, с которым у нас была связь по ICQ. По ICQ ставились задачи, вносились правки, разрешались непредвиденные ситуации итэдэ. Поскольку кроме оплаты проектов клиент нам платил ежемесячную сумму, связб должна была быть в рабочее время (у клиента) безусловно непрерывной и, поскольку клиентос был пузато-корпоративный, данные профилей ICQ должны были быть адекватными. Ируоленину, как девочку, непрерывно одолевали бесконечные онанисты и знакомцы.

Это обстоятельство толкнуло нас на создание бота для дрочеров и любителей познакомиться. Их обращения были изумительно однообразными, что существенно упрощало задачу. Идея состояла в том, чтобы создать бота, который бы вызывал у дрочера на той стороне взрыв мозга и достаточно долго не идентифицировался как бот.


Для этого мы решили построить кэролловскую трехмерную рэндомную матрицу ассоциаций второго порядка. Помните, да, из безумного чаепития -- "чем ворон похож на письменный стол?" Иными словами, из набора ассоциативных параметров входящего семантического праметра, рэндомно выбирался ассоциативный параметр, по кторому рэндомно выбирался промежуточный семантический параметр, из ассоциативных параметров которого еще один рэндомный параметр и по нему рэндомно исходящий семантический параметр. Например, при входящей синтагме "а ты горячая шлюшка" выбирался частотный параметр "горячая", по которому из матрицы рэндомно выбирался, например, утюг, из его ассоциативных параметров, например "железный", и по параметру "железный" выбирался главный семантический параметр ответа, например "лопата" и дальше частотно выбирались остальные параметры высказывания по входящим параметрам дрочера и ассоциативным параметрам ядра ответа. Это все лепилось в рэндомный грамматический шаблон и выдавалось дрочеру в виде "ка лопата горячая, утюг сломаешь". Сперва базу входящих параметров набивали волонтеры, среди которых был даже Славочка Левинштейн, общавшийся с дрочерами как девушка, а потом запустили скрипт. Нашего бота звали Глоконда Пупко, она была блондинкой, любила фильм "Чужой-2", мартини-бьянко, клубнику, занималась фотографией и шейпингом и обожала бокс и футбол. Никакого ИИ в ней не было, просто обычная поверхностная и формальная иммитация шизофрении.

Волонтеры работали с разных эккаунтов, а скрипт запустили с нуля, просто добавив ему в контакты эккаунты волонтеров. Так вот, через несколько часов нашу Глоконду-блондинку начали дико спаммить. Глоконда была заточена под дрочеров, поэтому парадигма входящих параметров у нее была очень скромной, -- частотная выборка из 4 мегабайт диалогов волонтеров с дрочерами. Массив входящих семантических параметров был около 500 глубоко проработанных единиц и еще около тысячи низкочастотных, проработанных слабо. Бот-спаммер, не утруждающий себя даже грамматическим построением фраз, пробив примерно три четверти входящей парадигмы Глоконды, отключался. Это продолжалось пару дней, а потом пошел унылый поток унылых дрочеров, для которых шизофрения Глоконды оказалась слишком сложной.

Ага, к чему эта слезная история. Если в начале 2000-х очень быстро нашли и начали изучать откровенно любительскую, никому неизвестную и ненужную Глоконду, я ни секунды не сомневаюсь в том, что майкрософтовского анонсированного бота совершенно целенаправлено и с применением мощных ресурсов "учили плохому". Гитлер -- слишком низкочастотный параметр, чтобы на протяжении одного дня устойчиво внедриться в операционный лексикон бота. Гуглтренд в помощь, я не смотрел, но это очевидно. Тем более очевидно, что майкрософтовская телочка модерировалась. То есть низкочастотный Гитлер мало того, что приобрел достаточный частотный вес, так еще и прорвался через модераторов.

Это значит, что нет нифига никакого смысла обсуждать философские результаты первого дня тестирования, эти результаты просто баг защиты бота от спама и манипуляций.