Этапы большого пути

Day 1,819, 19:17 Published in Ukraine Ukraine by Pan Xenonchik

В эту томную ночь с понедельника на вторник я бы, пожалуй, хотел, ну для начала - извиниться. Я прошу прощения у еукраинского сообщества за то, что в результате некоторых моих действий качественный уровень украинского медиа существенно понизился. Сейчас поясню в чем дело.

1. Пролог. Братоводство для меня давно перестало быть инструментом политической борьбы, читерством и т.п. Хорошие, годные братья - это очень интересная инженерная задача. Все зависить от того, как подходить к процессу. Можно - как некоторые мартышки с гранатами - от большого ума зарегить тонны низкокачественного продукта, гуманитарии, что с них взять. Ксенончик предпочитает брать качеством. Заливать голоса за кандидата, сливать с них куда-то валюту и т.п. - фу, это не интересно, да и бессмысленно - виртуальные деньги, виртуальные должности, эти секс-игрушки меня уже не расслабляют. 😉 Братья же мне интересны в контексте проблем искуственного интеллекта и дата майнинга, которыми я интересуюсь. А потому ерепка - отличный полигон для собственных исследований.



2. Начало. Я давно размышлял над тем, как заставить братьев писать статьи. То есть не, технически там довольно все просто - в пост-запрос вбросил текст и ок. Но нужно писать непалевные статьи. Такие статьи, которые были бы неотличимы от статей живых игроков. Для начала пойдем легким путем - трохан копипасты на патриотичную тему. Алгоритм берет фонарную статью из журнала или словаря, постит - вуаля, все думают, что это новичек и дружно печатают "-2голда". Это, кстати, очень интересная проблема философии ИИ и трансгуманизма: очень тяжело подделать индивидуальность условного Васи Пупкина, но достаточно легко подделать ряд социальных ролей - пользователя вконтакте, начало разговора в аське, продавца в магазине и т.п. В свое время меня на мысль навел вот этот пост, про гипотетического робота-ученика. Но, кажется, я опять отвлекся(простите, мне не спится, потому текст будет затянутый). Вобщем, мы видим, что сымитировать статьи человека с социальной ролью "нераздуплившийся тукликер" достаточно легко.



3. Звенья цепи. Следующий уровень - унылый патриот. Как справедливо заметил знатный троль Корчинский "У всьому світі націоналізм – це постріл, тільки в нас націоналізм – це тужливі пісні." Любовь украинцев к заунывной лирике укоренилась на генетическом уровне. Распарсить сборник стихов и народных песен - раз плюнуть. Для разнообразия - добавлять в них картинки на козацкую тематику вытащенные из гугла. И что мы видим? -2голда превращаются уже в редкие камменты "вотед". Еще немного и люди будут готовы поклоняться Deus ex machina!



4. К вершинам лидерства. Однако далее пришлось столкнуться с задачей принципиально иного уровня сложности. Необходим был качественный прорыв, генерация осмысленного текста самим "братом". Стоит понимать, что с нуля такую задачу осилить не под силам одному человеку. Да что там, лучшие умы планеты при поддержке огромных инвестиций решают проблемы искусственного интеллекта, в частности генерацию осмысленного текста. Говорят, стартап Quora неплохо продвинулся в этом направлении, но я давно не заглядывал к ним в гости. Вобщем, стало понятно, что создать с нуля преуспевающего е-журналиста мне не под силам. И тут пришла в голову идея - а зачем создавать с нуля?



5. Политический Олимп. Я постучал в скайп к Ивану Сирко. Иван является достаточно неглупым, веселым человеком, любящим развлечения такого рода. Идея пришлась ему по вкусу. Суть в том, чтобы оставаясь владельцем аккаунта он периодически постил статьи сгенеренные моей системой. Статьи генерятся не просто так, а по определенным шаблонам. Одной из тем была выбрана агитация против ЕДЕНа(Сирко считает это забавным). Большая часть статей была сгенерена следующим образом - когда у Украины было ноль регионов(а это часто бывает нынче) автоматом делался скриншот карты или еще чего-нить, так же автоматом на основе семантического шаблона генерилась какая-нить ехидная фраза. Под страшным словом "семантический шаблон" кроется достаточно безобидная вещь - есть несколько наборов предложений с различными структурами типа займенник-іменник(1,2)-дієслово-(діє)прислівник и т.п. И есть набор слов, которые этим шаблонам соответствуют. Так же стоит заметить, что у слов есть свои параметры вероятности - так, например слово "выйти" - наиболее подходящий кандидат на попадание в дієслово, а "ЕДЕН" - в іменник. Иногда статьи вообще не относились к ерепке, но никто не обращал на это внимания. Так же стоит понимать, что некоторые другие статьи Сирко писал сам, а так же сам отвечал на камменты. "Брат" такого бы не осилил.



6. Ум, чип и совесть. Как видите "брат" без проблем исполнял роль лидера политической партии. Я думал развить идею в сторону генерации текстов про спалення Москвы, но, во-первых, там и так конкуренция не слабая, во-вторых, хотелось челлендж поинтересней. Я замахнулся на программу-имитатор человека творческого, ранимого, интеллигентного, рукопожатого. Мой выбор пал на Засновныка. Поначалу он не хотел делиться акком - в основном из-за личной неприязни к автору этой статьи. Однако я достаточно быстро нашел к нему подход. Наш безработный друг сторговался за триста гривен, у них во Львове, между прочим, это деньги. Однако дальше я столкнулся с трудностями. Необходимо было генерировать длинный, связный и, что важно, эмоциональный текст. Пусть даже и с минимальным смысловым содержимым. Структурные шаблоны предложений в обычном виде здесь не катили, пришлось воспользоваться генетическими алгоритмами. В вики тащемта написано не очень понятным для домохозяек языком, поясню на пальцах. Суть алгоритма в том, что он осуществляет определенный перебор различных вариантов, при этом в зависимости от результата он самые неудачные отбрасывает, а самые удачные составляет и скрещивает их - ну как во время естественного отбора выживают самые приспособленные. Проблема заключалась в том, что мне приходилось вручную оценивать каждый сгенереный автоматом текст.



7. Победа трансгуманизма в отдельно взятой игрушке. Вобщем, все статьи Засновныка ушли в базу данных, разложены на предложения и словосочетания для анализа - ведь важно было постараться сохранить фирменный стиль автора. Вместо шаблонных подстановок программой производились семантические инъекции, которые сами формировались по двум тематикам "шеф, все пропало" и "ботоводы загубили страну", а так же пересыпались пошлостями. Каждый полученный текст я проверял и выставлял ему баллы. Тексты с низкими баллами отсеивались. Сначала выползала полная чушь. Потом пошло более осмысленно. На тестирование и отладку ушло несколько бессонных ночей. Однако в итоге система научилась писать текст, который с минимальными правками мог сойти за оригинал. И - понеслось! Чесгря, я был очень удивлен, когда понял, что люди не обращают внимания, что "автор" статья за статьей пишет об одном и том же, фактически только переставляя абзацы и стилистически меняя предложения. Когда стало совсем палевно Засновнык написал пару-тройку чисто своих статей(два "листа в редакцию", например), плюс он самостоятельно отвечал в комментариях, судя по всему, ловля нехилые лулзы от того, как эмоционально реагируют люди на текст написанный машиной. Я ловил лулзы не меньше, плюс, пару раз мы разыгрывали сценки в каментах для придания лоску. Сказать что вышел вин - ничего не сказать. Вышел эпик вин!



8. Эпилог. Вы спросите - зачем же я все это пишу, зачем раскрываю свою же затею. Дело в том, что сам по себе эксперимент удался. Де-факто тест Тьюринга пройден. "Братья" успешно доказали, что могут быть неотличимыми от людей тукликерами, патриотами, лидерами партий и даже творческими личностями. Потому ради интереса я раскрываю карты. Всегда предпочитал игру в открытую. "Братья" продолжат свою работу. А я продолжу наблюдать за вашей реакцией на их статьи, на ее изменение после того, как вы получили от меня информацию. На последок же замечу одну вещь. Я знаю ответ на титульный вопрос Ф. Дика. Нет, андроиды об электроовцах не мечтают. Они мечтают об обычных овцах. Например, об игроках в ерепку. 😉