plakhov | Entries tagged with 1 апреля

Любимая жена подарила мне первую в этой жизни плёнку. Носить я ее пока не могу (чтобы вернуться к своей форме XXIII века, нужно позаниматься бодибилдингом еще минимум годик), но факт остается фактом - они уже существуют! Производит их, как ни смешно, Адидас, более известный как провайдер лучшего в мире снаряжения для пеших походов к ларьку.

Результатом встречи является action list. Action list - это 1..N action item'ов. Каждый action item имеет вид "какой артефакт появится в ближайшее время, кто его подготовит, к какому сроку, кого об этом известит". Результирующий action list должен быть отправлен организатором встречи всем заинтересованным лицам (как минимум, всем участникам встречи).

А. Банальность
B+. Хорошее policy, надо бы внедрить
B-. Плохое policy, у нас гораздо лучше
C. Плахов стебется над менеджерами
D. Это же ~~Гитлер~~ Дилберт!
E. This poll sucks
F. This is not a poll

(Кто уже знает ответ, пожалуйста, молчите).

Этому вы, конечно, не поверите; впрочем, я и не прошу воспринимать нижеследующий текст буквально (как и предыдущий, кстати).

( Об одном интересном случае психического заболевания )

Пользуясь одними мыслями о гипотезах и теориях еще
менее естественных, нежели яндексовский
поиск, реализуя единичное сомнительное легаси, едва добившиеся успеха Юлия Тимошенко
и некий однофирмовец Платона Лебедева анекдотически настроены еще тянуть янтарные нервы единоросса
Януковича. СС-20, Лебедь и Шрёдер когда-то оборвали мир
мессианских настроений отечественных гегемонов Остлянда.
Заметим, не американец Ющенко.

Ну что, развлеклись? Теперь за работу.

До начала этого года я был уверен, что человеческий интеллект с точки зрения теории вычислительной сложности является какой-то неразрешимой загадкой. Люди практически непрерывно решают задачи построения когнитивных моделей по большому набору входов большой размерности, что выглядит подозрительно похожим на решение NP-полных задач. Я даже было думал, что все эти тысячи теоретиков что-то проглядели, и пытался, опираясь на работы Leslie Valiant'а, решить Monotone Parity-P за полином малой размерности. Какие-то интересные штуки я даже придумал, но все это получилось не особенно практично. Похоже, на халяву решать произвольные NP-полные задачи таки невозможно, и лет через 30 алгебраические геометры нам расскажут, почему.

Но это неважно. Совершенно неожиданно для себя я узнал, что британские ученые изобрели очередной мощный шаг в построении strong AI, и теперь хотя бы понятно, куда копать.

Для начала определимся с целями.
"Слабый" AI - это общее название для набора технологий (как уже существующих, так и находящихся в разработке), имитирующих те или иные аспекты умственной деятельности человека. Это размытая область, она различным пересекается с machine learning, статистикой, теорией оптимального управления, робототехникой, статистической лингвистикой, и т.д и т.п. Современные поисковики - самый типичный пример технологий этого класса.

Strong AI - это светлая мечта фантастов, машина, проходящая тест Тьюринга, и могущая заменить или превзойти человека в любом роде деятельности ~~кроме порнофильмов~~.

Переход сразу от первого ко второму выглядит подозрительно и похож на чудо. Должен быть правдоподобный промежуточный этап.

Таким этапом предлагается считать появление вычислительно приемлемых алгоритмов unsupervised learning, единообразно и в режиме реального времени решающих следующие задачи:
- парсинг естественного языка
- распознавание объектов на изображениях и видео
- распознавание речи
- установление структурированных ассоциативных связей в "сенситивной каше", состоящей из всего вышеперечисленного
Этого недостаточно, чтобы клепать автоматических Платонов, Невтонов и прочих Перельманов, но вполне достаточно для того, чтобы сделать типичного "тупого робота" из классической фантастики, которому можно доверить водить автомобили, поезда и танки, который сможет полностью заменить людей на производстве (за исключением инженеров-технологов), а также собирать урожай, доить коров ~~и встречаться со стиральной машиной~~. Назовем это, скажем, medium AI.

Но создание алгоритмов подобного класса - это все равно звучит фантастически, правда? А вот неправда. Оказывается, всё (хорошо, почти всё) уже придумано без нас, остается это свести воедино.

1) Были концептуальные трудности, связанные с тем, что не существует "единственно верного способа" ни поделить единый сенсорный поток на разные "объекты", ни понять, что перед нами один и тот же объект. Схожие проблемы неединственности и нечеткости возникают и с понятиями "синонимов", с таксономиями, и т.д. и т.п. Судя по всему, они благополучно разрешены при помощи структуры, называющейся lattice-ordered monoid of concepts (далее LOMoC). В работах А. Кларка (не Артура, а Александра, прошу заметить) эти идеи развиваются для парсинга естественных языков. К сожалению, в его статьях описывается странноватая модель обучения, в которой нужен учитель, ученик может выполнять вычислительно крайне громоздкие операции (что-то типа O(n⁷), где n - количество известных ему примеров фраз языка), да и объем коммуникаций "учителя" с "учеником" тоже нездорово большой. Тем не менее, уже сейчас это на вид сильно лучше и иерархии Хомского, и подавляющего большинства других языковых моделей. Читать можно начинать с Cla10 (pdf)

LOMoC серьезно использует тот факт, что мы работаем именно со строками, т.е. "топология" входа линейна, а не 0-мерна (вход - множество или мультимножество), не двумерна (изображение), и тем более не является экзотической (скажем, когда вход - совокупность последовательных двумерных изображений, которые иногда аннотированы строками или множествами тэгов).

Но аналогичные структуры можно по аналогии построить и для других топологий, заменив операцию свертки строки и контекста соответствующей операцией конкатенации связного подмножества входа и его локального контекста. Вот только степени полиномов станут совсем кошмарными. Тем не менее, давайте пофантазируем (пока что) и представим себе, что это сделано. Какую генеративную модель "естественных изображений" смогла бы "понять" такая система? (здесь и далее, чтобы понять, откуда я взял дальнейшее, вам придется прочитать Кларка и, главное, понять его; а если так, то с вероятностью по меньшей мере 25% вы сидите слева от меня за соседним компьютером)

Неплохую. Например, с одной стороны, она поймет, что бывают "глаза", "рты" и "уши", поймет, что "лицо" - это правильно расположенная совокупность оных, поймет на произвольном изображении "лица", где там что (не зная, как что называется, а просто выделив соответствующие концепты). В то же время она будет знать, что Мона Лиза - это не только "лицо", но и "картина" (в смысле принадлежности к соответствующему concept class), а также что это та же самая картина, что и на входе номер 1358 (в смысле принадлежности к еще более узкому концепту). По картинке разным, частично пересекающимся или включающим друг друга ее подмножествам она сопоставит разные концепты. Сможет, например, парсить детские рисунки, правильно понимая, на какой объект реального мира это похоже, или отличать фото человека от фото портрета этого человека, висящего на стене.

2) Ну а как же нам свести размерность полинома к необходимой нам для поточных realtime алгоритмов сложности expected O(n^1+epsilon), и заодно избавиться от необходимости в явном "учителе"? Для этого нам придется вспомнить, что есть такая чудесная штука, как locality sensitive hashes. В web search с их помощью, в частности, ищут плотные двудольные подграфы в ориентированных графах "кто на кого ссылается", и таким образом вычисляют спам. Это уже успешно решенная задача, и решается она за О(числа вершин). Посмотри теперь на другой граф, а именно вот какой. Он двудольный, в нем вершины - это контексты и подмножества входов, а ребра отвечают на вопрос "какие подвходы встретились в каких контекстах". Что такое плотный двудольный подграф в нем? Ой, да это же и есть "концепт" Кларка!

А все это значит, что нам не нужно строить этот граф в явном виде! Мы можем, выбрав правильный набор хэшей, обрабатывать входы потоком, создавая "концепты" на лету. Кроме того, мы приобретем за счет рандомизированности дополнительную устойчивость к редким случайным ошибкам, например, встречающимся нам "неграмматичным" фразам или изображениям и тп., и избавимся от необходимости в учителе.

Вот в общем-то и все. Пора писать medium AI.

Сейчас я активно мониторю новые статьи про locality sensitive hashing (см. вчерашнюю запись в этом же журнале), и занимаюсь на работе чем-то максимально близким, что нашлось - semi-supervised извлечением и классификацией объектов из пользовательских запросов по их контекстам. Естественно, я пользуюсь при этом гораздо более "прикладными" методами, но, тем не менее, эта вся идея работает, черт возьми, я это вижу глазами.

Тем не менее, парсить естественные языки, кажется, для первого этапа сложновато. Начать нужно, скажем, с распознавания изображений общего назначения по этой схеме. По изображению искать "смысловые" near duplicates для его частей в имеющейся базе. Не знаю, буду ли я этим заниматься, но это неважно. Не я так кто-нибудь еще, не к 2017, так к 2025-му.

Полгода назад я выглядел как "типичный программист" (сутулый и с пузиком), и находился в клинической депрессии, если не сидел на таблетках, от нее помогающих.

А теперь "веселый, богач, не толстый, шутит" (с). В метро девушки, поглядев на меня, начинают причесываться. В каждом конкретном случае это может выглядеть совпадением, но статистическая значимость явления сильно подымает настроение.

Мышцы пока не на уровне профессиональных бодибилдеров, конечно, но ~~не хуже~~ лучше, чем у среднего киногероя. Квадратиков нет - для их проявления нужно сушиться, а это вредно. Ну ничего, фотошоп нам поможет.

Ой, что-то их на этой картинке слишком много, сколько их на самом деле должно быть, кто знает?..

Это не первая моя попытка начать следить за собой, но первая удачная.
Что для этого, как оказалось, нужно сделать. Я не утверждаю, что все эти пункты важны, что такой образ действий оптимален и т.п. Просто вот так - получилось удачно.
1) Заниматься спортом в среднем три раза в неделю по 50 минут. Стоит заметить, что "в среднем" не означает "в лучшем случае", если бывают пропуски занятий (а они бывают), должны быть и недели, когда тренировок больше трех.
2) Штанга обязательна, одними гантелями (а тем более турником) обойтись невозможно. Тренажеры не нужны. "Велосипеды" и беговые дорожки, как оказалось, тоже (чему я был удивлен) - силовых упражнений на несколько групп мышц достаточно. Жим лежа, приседания со штангой (для них, кстати, нужен пояс, иначе легко позвоночник повредить), для пресса - подъемы туловища на наклонной скамье с отягощениями, подтягивания, проработка мелких мышц гантельками. Ну это расписывать я тут не буду, Шварценеггера почитайте, классический труд, там все подробно и с картинками.
3) Изменить режим питания. Нужно один-два приема пищи в день заменить на специальное спортивное питание. Не волнуйтесь, это не вредно, в нем нет гормонов и прочая, это просто такая еда со специально подобранными пропорциями белков, углеводов и жиров. Не очень дорого - Meso-Tech (MuscleTech) cтоит примерно 120-150 рублей за пакет, это дешевле, чем в столовку сходить. Метандростенолол или эфедрины всякие жрать не нужно.
4) Считать калории в остальные приемы пищи. Выяснилось, что мне нужно 2000 в день (как девушке 20 лет, не занимающейся спортом). Не знаю, почему так. Слишком эффективный обмен веществ, видимо. Нормальная цифра, скорее, 2500. Если неохота заниматься подсчетами, можно обойтись простым правилом - не есть торты, майонез и свинину. Довольно быстро организм переходит на переработку белков и всего этого перестает хотеться.
5) Пить больше воды (просто воды, не соков, не чая). В интернетах пишут про 8 стаканов в день, столько я не в состоянии, но стаканам к четырем можно себя приучить. Кофе тоже помогает, кстати.
6) Ограничивать количество углеводов нельзя. Оставьте это средство топ-моделям. А программисту от безуглеводной диеты недолго и основное средство производства повредить.
7) Не пользоваться лифтами, ходить по лестницам, на эскалаторах "занимать левую сторону".

Пункты 1 и 2 определяют место занятий - или на работе, или дома. Три-четыре раза в неделю тащиться после работы в какой-нибудь фитнес-центр, как бы удобно он ни был расположен, отнимало бы слишком много времени. А так на все про все тратится меньше трех часов (в неделю, не в день!)

Интересный побочный эффект - некоторые проблемы с психикой, которые у меня начинали развиваться (

bandures должен помнить, наверное), те самые депрессивные состояния, о которых я упоминал в начале, уже через месяц занятий полностью исчезли, и с тех пор не возвращались. Это не загадка какая-нибудь, известно, как занятия спортом влияют на обмен серотонина, но об этом тоже не буду распространяться.

Хотел показать фотки "до" и "после", но что-то не получилось в домашних условиях при плохом освещении на мыльницу устроить приличную фотосессию. Да и черт с ними, а то сразу понятно было бы, правда вышеизложенное, или нет. :)

Сегодня все напишут по какой-нибудь фигне, в которую предложат поверить читателю. По-моему, это не очень интересно, нужно модифицировать. Я заготовил несколько постов, и буду в течение дня выкладывать. Часть из них может быть первоапрельским стебом (а может и не быть). Хотите - угадывайте, какие. Не хотите - не угадывайте.

Прошу побольше глупостей в комментариях. "Я знаю, это ты сейчас в шутку", "О Боже, ведь это правда", "Вы совершенно не понимаете, о чем говорите", "Мне вас жаль", "Обратись к врачам", а главное, "Знакомства для секса в твом городе без смс" всячески приветствуются!