Президент США Дональд Трамп привел к власти новую команду, состоящую в том числе из технократов. Должность вице-президента занял Джеймс Дэвид Вэнс, который в свое время обзавелся связями с основателями компаний в Кремниевой долине. Вэнс занимался крупными инвестициями в технологические проекты, связанные с этим направлением, и не просто понимает, во что следует вкладывать деньги, но и сам отчасти находится под влиянием дельцов Кремневой долины.
Технократы, о которых идет речь, не просто ставят ИТ-технологии на первое место, но и обсуждают, что ИИ и машины должны в будущем заменить людей на производстве и в других отраслях, и это есть благо.
В этой связи интересно, что специалисты из США сами говорят о концепции искусственного интеллекта. Хотелось бы получше рассмотреть, что представляет собой данная сфера, которая скоро будет влиять не только на технику, но и на социальную политику в мире. Некоторое представление об этом может дать нижеследующий текст, увидевший свет еще до возвращения Трампа в Белый дом.
ИА Красная Весна уже публиковала перевод статьи из американского еженедельника The New Yorker от 1 марта 2024 года «Как представить себе ИИ» Джарона Ланье, которого нередко называют «отцом виртуальной реальности».
Теперь ИА Красная Весна представляет перевод еще одной, более поздней статьи из The New Yorker от 25 ноября 2024 года «Революция в обучении роботов» о том, как обучаются новые современные роботы. Автор Деймс Сомерс — программист из Нью-Йорка, который более известен как автор статей о новых технологиях, обучении и искусственном интеллекте.
В предлагаемой статье Сомерс пишет про применение ИИ не для традиционных задач, вроде написания текстов и программного кода, а именно для обучения роботов точным движениям и ориентации в пространстве. Эта задача оказалось намного более сложной, но если она будет решена для одного робота, то благодаря ИИ решение легко будет масштабироваться.
Будущее поколение роботов не будет работать, оно будет обучаться
В первые дни жизни моего сына, осенью 2023 года, большую часть времени, когда он не спал и не ел, он занимался тем, что некоторые ученые-когнитивисты называют «моторным лепетом». Его руки и ноги шевелились; его глаза блуждали и дергались, почти механически. Однажды ночью, когда он уже засыпал, он впервые улыбнулся. Пока я любовался им, гадая, о чем он может думать, его выражение лица внезапно стало пустым, а затем, в быстрой последовательности, он сначала выглядел расстроенным, потом удивленным, и затем снова счастливым. Казалось, словно настраивалось оборудование. По-видимому, в этом и цель моторного лепета: случайные движения помогают мозгу познакомиться с телом, в котором он находится.
Наш интеллект является физическим задолго до того, как он становится чем-то еще. Большая часть массы нашего мозга предназначена для координации деятельности нашего тела. (Нейробиологи обнаружили, что даже когда вы перемещаетесь в абстрактном пространстве — например, размышляя о схеме организации вашей компании, — вы используете те же нейронные механизмы, что и для навигации в реальном пространстве). Несоразмерно большая часть первичной моторной коры, области мозга, контролирующей движение, посвящена частям тела, которые двигаются более сложным образом. Особенно большой участок контролирует лицо и губы; настолько же большая часть отвечает за руки.
Человеческая рука способна двигаться двадцатью семью различными способами, что намного больше, чем способна любая другая часть тела: наши запястья вращаются, наши суставы двигаются независимо друг от друга, наши пальцы могут разгибаться или сжиматься. Чувствительные окончания в коже кисти — одни из самых плотных в теле и являются частью сети нервов, проходящей вдоль спинного мозга. «Люди думают, что позвоночник — это просто провода», — говорит Артур Петрон, робототехник, получивший степень доктора философии по биомехатронике в Массачусетском технологическом институте (МТИ). «Нет. Это еще и мозговая ткань». Рука, в частности, настолько чувствительна, что «это визуальный датчик», — сказал он. «Если вы дотрагиваетесь до чего-то в темноте, вы можете его буквально нарисовать».
Я помню неделю, когда руки моего сына начали работать. У нас была сферическая игрушка с погремушкой внутри, и в течение нескольких недель он просто игнорировал ее. Но однажды, как бы случайно, он сумел зацепиться за неё. На следующий день он уже мог её удерживать. Через неделю он стал хвататься за нее с некоторым намерением, а через две недели уже переворачивал её в руке. Самое удивительное в этом процессе — его чрезвычайная быстрота. Как можно научиться использовать такой сложный инструмент всего за две недели? Мой сын сам, казалось, был впечатлён. Он смотрел на свою ладонь и сгибал пальцы, как будто задаваясь вопросом: «Что это за штука, и что она еще может делать?»
В 1980-х годах канадский робототехник Ханс Моравек описал парадокс: задачи, которые проще всего выполнять людям, например, захватывать предметы руками, часто оказываются самыми сложными для компьютеров. Это актуально даже сейчас, когда многие сложные задачи, такие как написание прозы или программного кода, уже фактически решены. Работая программистом, я использую искусственный интеллект (ИИ) для быстрого решения задач по написанию кода, на которые раньше у меня ушел бы целый день; но этот ИИ не может печатать на моей клавиатуре. Он весь состоит из разума и не имеет тела. В результате самыми «недоступными для ИИ» профессиями могут оказаться такие старые профессии, как сантехника, столярное дело, уход за детьми и кулинария. Стив Возняк, соучредитель Apple, когда-то предложил простой тест, который до сих пор не был пройден: может ли робот войти в ваш дом и приготовить вам чашку кофе?
Еще несколько лет назад казалось, что робототехника развивается гораздо медленнее, чем ИИ. На YouTube человекоподобные формы, разработанные компанией Boston Dynamics, танцевали или преодолевали препятствия, выполняя что-то вроде механического паркура. Но эти движения были запрограммированы заранее — те же самые роботы не могли приготовить вам кофе. Чтобы принести кофейный фильтр, роботу, возможно, потребуется обойти кухню, распознать шкаф и открыть его дверцу, не сорвав с петель. Простое разъединение сторон кофейного фильтра долго считалось задачей невероятной сложности. Над всем этим витала атмосфера безнадежности.
Затем некоторые достижения ИИ начали проникать в робототехнику. Тони Чжао, исследователь в области робототехники, который начинал свою академическую карьеру в сфере ИИ в Калифорнийском университете в Беркли, вспоминает, как прочитал о GPT-3, большой языковой модели (БЯМ), которую OpenAI представила в 2020 году, и почувствовал, что стал свидетелем истории. «Я видел языковые модели и раньше, но это была первая, которая показалась мне по-настоящему живой», — сказал он мне. Петрон, исследователь из МТИ, работал над другим проектом в OpenAI — роботизированной рукой, которая могла бы аккуратно вращать грани кубика Рубика. В августе 2022 года исследователи из Google показали, что роботы, оснащенные БЯМ, проявляют удивительное здравомыслие в выполнении физических задач. Когда они попросили робота принести еду и напиток, он нашел на кухне банан и бутылку с водой и принес их.
Робототехники все чаще считают, что их область подходит к своему «моменту ChatGPT». Чжао рассказал мне, что когда он запустил одно из своих последних творений, он сразу подумал о GPT-3. «Это похоже на то, чего я никогда раньше не видел», — сказал он. В ведущих лабораториях устройства, которые раньше казались грубыми и механическими, т. е. роботизированными, теперь двигаются так, что это наводит на мысль об их интеллекте. Руки ИИ начинают работать. «За последние два года кривая прогресса стала значительно круче», — сказала мне Каролина Парада, руководящая командой робототехников в Google DeepMind. Группа Парады стоит за многими из самых впечатляющих недавних достижений в робототехнике, особенно в том, что касается ловкости. «Это год, когда люди действительно поняли, что можно создавать универсальных роботов», — сказала она. Поразительным в этих достижениях является то, что они практически не требуют явного программирования. Роботы сами обучаются поведению.
Прохладным утром этого лета я посетил бывший торговый центр в Маунтин-Вью в Калифорнии, который теперь является офисным зданием Google. По пути внутрь я прошел мимо небольшого музея, посвященного прошлым достижениям компании, включая первые самоуправляемые автомобили Waymo. Наверху научные сотрудники отдела робототехники Google DeepMind Джонатан Томпсон и Дэнни Дрисс стояли в центре того, что напоминало заводской цех, с разбросанными повсюду проводами.
На нескольких десятках станций операторы, склонившись над столами, занимались различными видами рукоделия. Они не использовали свои собственные руки — вместо этого они управляли парами металлических роботизированных рук. Эта установка, известная как ALOHA (a low-cost open-source hardware system for bimanual teleoperation — недорогая аппаратная система с открытым исходным кодом для двуручного телеуправления), была когда-то докторским проектом Чжао в Стэнфорде. На конце каждой руки был зажим, который вращался на запястном суставе; он двигался, как голова велоцираптора, с несколько скованной грацией. Одна женщина с помощью роботизированных рук аккуратно опускала ожерелье в открытый ящик шкатулки для драгоценностей. Позади нее другая женщина расстегивала застежку-молнию на сумке, а рядом молодой человек вытянул руки вперед, пока его роботизированные руки складывали детскую рубашку. Это была кропотливая, аккуратная работа, и в комнате стояла тишина, нарушаемая только скрипом открывающихся и закрывающихся механических соединений. «Просто удивительно, что можно и чего нельзя сделать с помощью захватов», — сказал Томпсон, предлагая мне сесть за свободную станцию. «Я покажу вам, как начать».
Я обхватил пальцами две рукоятки. Когда я толкал или тянул одной рукой, её аналог в виде роботизированного захвата повторял мои действия. Томпсон положил на стол несколько игрушек и маркер. Правой рукой я слабо надавил на маленький пластиковый бриллиант, надеясь пропихнуть его через ромбовидное отверстие в блоке. «Это довольно сложно», — сказал я. Мой мозг с впечатляющей скоростью решил, что эти захваты — мои новые руки, но еще не настроил их должным образом. Бриллиант не слушался меня. Я посочувствовал своему сыну, который испытывал те же трудности с одной из своих первых игрушек.
«Передавая его из одной руки в другую, вы значительно упростите переориентацию», — посоветовал Томпсон.
Я забыл, что у меня вообще есть левая рука. Я потренировался открывать и закрывать левый захват и обнаружил, что могу легко передавать бриллиант из руки в руку. Дрисс добавил: «Вы видите, что здесь нет обратной связи по усилию, но вы понимаете, что это совсем не важно». Когда я сомкнул захваты вокруг бриллианта, я ничего не почувствовал — но наконец-то сумел пропустить фигуру через отверстие.
Набравшись уверенности, я схватил маркер левым захватом и снял колпачок правым. Томпсон сказал, что они дали схожее задание своим операторам. Возле моих ног были две педали, на одной из которых было написано «Успех», а на другой — «Неудача». Можно было часами открывать и закрывать маркеры, нажимая правую педаль, если у вас получалось, и левую, если вы ошибались. Затем искусственный интеллект, используя технику, называемую имитационным обучением, пытался воспроизвести успешные попытки без участия человека. Если вы когда-либо видели, как тренер по теннису направляет руку ученика для правильного бэкхенда, это и есть имитационное обучение.
Я заметил компьютер под столом. Дрисс объяснил, что в нем установлены четыре камеры, которые собирают данные, а также датчики, отслеживающие ориентацию робота в пространстве. Данные обрабатываются серией нейронных сетей и преобразуются в так называемую стратегию — по сути, компьютерную программу, которая указывает роботу, что делать. Рука робота на сборочной линии может иметь очень простую стратегию: повернуться на десять градусов по часовой стрелке, взять предмет, положить его, повернуться обратно и повторить. Стратегии, которым обучали здесь, были гораздо более сложными и представляли собой обобщение успешного опыта всех операторов.
Дрисс начал печатать на консоли неподалеку. Он хотел показать мне стратегию, которая вешает рубашки на вешалки. «На скольких демонстрациях была обучена эта стратегия?» — спросил Томпсон.
«На восьми тысячах», — ответил Дрисс.
Я представил себе оператора, вешающего рубашку восемь тысяч раз. Позади нас кто-то пришел на новую смену и разминал запястья. «Они никогда не работают больше часа без часового перерыва», — сказал Томпсон.
Когда стратегия была готова, Томпсон положил на стол детскую футболку-поло, и Дрисс нажал «Ввод». Внезапно, ALOHA, которой я управлял, начала двигаться самостоятельно. Руки ожили и целенаправленно двинулись к рубашке, как волшебные метлы в «Фантазии».
Правый захват схватил один угол рубашки и, жужжа мотором, поднял его к маленькой пластиковой вешалке с плечиками. Другой захват схватил саму вешалку. Следующие шаги заключались в том, чтобы продеть вешалку в одно плечо, закрепить его, и сделать то же самое с другим плечом. Робот на мгновение остановился, затем пришел в себя. Наконец, он повесил вешалку с рубашкой на стойку.
«Я считаю это успехом», — сказал Томпсон, нажимая на правую педаль. Я видел всю сложность этой задачи: глаза помогают рукам вносить небольшие корректировки по ходу дела. ALOHA — это одна из самых простых и дешевых систем роботизированных манипуляторов, но её помощью операторы расширили границы ловкости роботов. «Можно также чистить яйца», — сказал Томпсон. Чжао даже смог достать контактную линзу из футляра и положить её на глаз игрушечной лягушки. (Другие точные задачи, такие как шитье, до сих пор остаются сложными).
На заре создания Google Books целые комнаты работников переворачивали миллионы страниц вручную, чтобы получить доступ к содержащимся в них знаниям. Полные комнаты систем ALOHA раскрывали тонкие физические детали повседневной жизни, возможно, одной из последних неучтенных областей человеческой деятельности. Полученные ими данные помогут обучить то, что робототехники называют «большими моделями поведения».
Я попросил Томпсона и Дриса показать мне стратегию, которой прославился их робот. «Есть один профессор, очень хороший профессор, который сказал, что он уйдет на пенсию, как только робот сможет завязывать шнурки», — сказал Дрис. Томпсон положил ботинок на стол.
Когда захваты ожили, они схватили концы шнурков, сформировали из них петли и переплели их друг с другом. Когда захваты разошлись, мы закричали: робот завязал шнурки.
«Так он ушел на пенсию?» — спросил я. Очевидно, нет. Одно из главных мечтаний ИИ — обобщение: как справляется ваша стратегия, когда она выходит за рамки обучающих данных? Они обучали стратегию только на двух или трех ботинках.
«Если бы я дал ей свою обувь», — предположил я, — «неужели она бы справилась?»
«Можем попробовать», — сказал Томпсон. Я снял свою правую кроссовку, извинившись перед теми, кому придется с ней работать. Томпсон смело поставил ее на стол, пока Дрис перезагружал стратегию.
«Чтобы понять, чего следует ожидать», — сказал Дрис, — «это задача, которая считается невыполнимой».
Томпсон с некоторой опаской смотрел на новый объект эксперимента. «Очень короткие шнурки», — сказал он.
Стратегия загрузилась, и захваты приступили к работе. На этот раз они пробовали взяться за шнурок, но не могли ухватиться. «Вы даете согласие на уничтожение вашей обуви?» — пошутил Дрис, когда захваты схватились за язычок. Томпсон дал им попробовать еще несколько секунд, прежде чем нажать на педаль «Неудача».
Эксперты по детскому развитию любят говорить, что примерно в девять месяцев у детей развивается щипковый захват, то есть способность удерживать что-то маленькое между большим и указательным пальцами. Это определяет проблему с точки зрения развития руки. Однако не менее важно и то, каких знаний требует этот маневр. Дети должны знать, с какой силой можно сжать кусочек авокадо, прежде чем он выскользнет из пальцев, или печенье «Чирио», прежде чем оно раскрошится.
С момента рождения мой сын занимается тем, что исследователи ИИ называют «предсказанием следующего токена». Когда он тянется за кусочком банана, его мозг предсказывает, как он будет ощущаться на кончиках пальцев. Когда банан выскальзывает, он учится. В основном это тот же метод, который используют БЯМ вроде ChatGPT в процессе обучения. Когда БЯМ поглощает тексты из интернета, она скрывает от себя следующий фрагмент текста, или токен, в предложении. Она угадывает скрытый токен на основе предыдущих, затем открывает его, чтобы увидеть, насколько точно угадала, и учится на несоответствиях. Прелесть этого метода в том, что он практически не требует человеческого вмешательства. Вы можете просто скормить модели необработанные знания в виде токенов из интернета.
У нас, взрослых, есть невероятно богатая модель физического мира, которая является результатом накопленных за всю жизнь токенов. Попробуйте вот что: посмотрите на любой предмет или поверхность вокруг вас и представьте, какова она на вкус. Вы, вероятно, будете правы, и это как-то связано с теми годами, которые вы провели, ползая и засовывая всё в рот. Как и все взрослые, я упражняюсь в ловкости, даже не осознавая этого: когда мне удается засунуть одеяло в пододеяльник; когда я открываю запечатанный пакет с собачьими лакомствами одной рукой. Разница между мной и моим сыном в том, что большинство моих предсказаний точны. Я не тянусь к струе воды, думая, что смогу её удержать. Но бывают и исключения. Недавно в ресторане, друг предложил мне ткнуть в скульптуру, которая, казалось, была сделана из стекла, и вдруг она заколебалась, как резина. Модель обновлена.
Мы лучше завязываем шнурки, чем ALOHA, не потому, что у неё примитивные, нечувствительные захваты, а потому, что каждый ботинок — каждое расположение шнурков, то, как они гнутся и падают при каждом поднятии — уникален. Не существует интернет-архива о способах взаимодействия физических объектов. Вместо этого исследователи придумали несколько конкурирующих методов обучения роботов.
Одна группа делает ставку на симуляцию. Nvidia, крупнейший производитель микросхем для ИИ, разработала программное обеспечение для создания «цифровых двойников» промышленных процессов, что позволяет компьютерам отрабатывать движения до того, как роботы действительно их выполнят. OpenAI использовала симулированные данные для обучения своей роботизированной руки вращению кубика Рубика; копии руки, работая параллельно, выполняли симуляции, которые заняли бы у реального робота десять тысяч лет. Привлекательность такого подхода очевидна: для генерации дополнительных данных достаточно увеличить вычислительную мощность, и роботы смогут учиться как Нео в «Матрице», когда он изучал кунг-фу. Однако, руки робота и кубики Рубика не могут быть смоделированы идеально. Даже бумажное полотенце становится непредсказуемым, если его скомкать или порвать. В прошлом году Nvidia опубликовала работу, в которой показала, что исследователи могут научить симулированную роботизированную руку вращать ручку в пальцах, как это может делать скучающий студент — действие, которое требует, чтобы ручка большую часть времени была в воздухе. Однако, в статье не упоминается, сможет ли настоящий робот выполнить этот трюк.
По этой причине имитационное обучение, кажется, имеет преимущество перед симуляцией. Американский стартап Figure привлек более шестисот миллионов долларов для создания сложного «человекоподобного» робота с головой, туловищем, руками, ногами и пятипалыми кистями. По словам основателя Figure Бретта Адкока, его самым впечатляющим достижением в плане ловкости на данный момент является «разделывание пепперони»: робот может отделить один ломтик от остальной колбасы. «Если вы хотите, чтобы робот мог делать то, что могут люди, тогда вам нужен робот, который может взаимодействовать с окружающей средой так же, как это делают люди», — сказал мне Адкок. (Tesla, 1X, Agility и десятки китайских конкурентов также создали гуманоидов). Джорди Роуз, соучредитель стартапа в области робототехники и ИИ Sanctuary AI, расположенного в Ванкувере, утверждает, что для роботов, которые двигаются как мы, проще собирать данные. «Если бы я попросил вас взять чашку, скажем, с помощью робота-осьминога с восемью щупальцами-присосками, вы бы понятия не имели, что делать, верно?» — сказал он. «Но если это рука, вы просто делаете это». Изящный гуманоид Sanctuary, названный Phoenix, частично учится благодаря дистанционному управлению со стороны людей. «Пилот» надевает тактические перчатки, экзоскелет, покрывающий верхнюю часть тела, и шлем виртуальной реальности, который показывает, что «видит» робот. Каждое движение, даже легкое сгибание мизинца пилота, повторяется роботом. Phoenix учится во многом так же, как и ALOHA, но гораздо более выразительно.
Конечно, если роботов приходится обучать каждому навыку вручную, потребуется много времени и много экзоскелетов, чтобы они стали полезными. Когда я хочу испечь хлеб, я не прошу Пола и Прю из «The Great British Bake Off» подойти и управлять моими руками; я просто смотрю эпизод шоу. «Это же святой Грааль, верно?» — сказал Томпсон из проекта ALOHA. «Можно представить себе модель, которая смотрит видео на YouTube, чтобы научиться делать практически все, что вы хотите». Но из видео на YouTube вы не узнаете точный угол наклона локтя пекаря или силу, с которой он замешивает тесто. Чтобы воспользоваться преимуществами демонстрациями на расстоянии, робот должен уметь сопоставлять свои руки с руками человека. Для этого требуется основа: ментальная модель физического мира и тела в нем, а также набор простых навыков.
На ранних этапах жизни люди учатся учиться. Несколько месяцев назад мой сын сидел на лошадке-качалке и был разочарован тем, что она не двигается. Оглянувшись через плечо, он увидел девочку на своей собственной лошадке, которая пинала ее ногами, чтобы заставить ее качаться. Обезьяна видит, обезьяна делает. После нескольких попыток лошадь начала двигаться, и на его лице появилась улыбка. Специалисты по ИИ любят говорить о «маховике» — аналогии с диском, который, начав вращаться, трудно остановить. Когда маховик действительно набирает обороты, роботы исследуют мир более эффективно, и они начинают улучшаться быстрее. Именно так робот может перейти от одного состояния, когда им необходимо управлять вручную, к другому, когда он учится самостоятельно.
В одном из старых зданий кампуса Google есть стол для настольного тенниса, на одной стороне которого стоит большая промышленная роботизированная рука — такие обычно можно увидеть на автомобильном заводе, но в данном случае она держит ракетку. Во время моего визита инженер-исследователь Саминда Абейруван сидел за компьютерным пультом по другую сторону сетки, а инженер-программист Паннаг Санкети сказал ему «включить бинарник». Рука с жужжанием включилась.
Видеоролики с этим роботом 2022 года не внушали мне большого энтузиазма играть против него. На жаргоне моей средней школы, где я играл в теннис, робот выглядел как «забивала" — он просто возвращал мяч без амбиций и едва мог бросить вызов новичкам. Но, по-видимому, за последние два года система значительно улучшилась. Фей Ся, другой исследователь, предупредил меня: «Будьте осторожны с ударом справа».
Абейруван сделал тренировочную подачу роботу. Вся конструкция — рука была установлена на направляющей — двигалась как головка принтера, громко и быстрее, чем казалось возможным. Ракетка взмахнула в воздухе красивым, восходящим ударом, отправляя мяч обратно через сетку. Абейруван ловко ответил, но на третьем ударе робот сделал сильный форхенд по диагонали: 0 — 1.
«Я не хочу долго с ним играть», — сказал Абейруван. «Он будет адаптироваться к моим слабостям». Он предложил ракетку мне.
Один из недостатков того, что мы не роботы — это невозможность просто загрузить программу в память. Обычно мне нужно около пятнадцати минут, чтобы найти свой ритм за столом для пинг-понга. Я подкинул мяч роботу, надеясь размяться. В ответ прилетел глубокий и быстрый диагональный удар, который пролетел мимо края стола.
«Это довольно жестокая штука», — сказал я. Казалось, он пытался попасть в углы.
«Мы изменили его, чтобы он был более конкурентоспособным», — сказал Санкети. «В результате он стал более агрессивным».
Многие мячи уходили далеко. Я снизил скорость своих ударов, и вдруг он нашел свою дистанцию. Теперь, когда он вступал в обмен бросками, он стал наносить удары под все более и более крутыми углами. Все больше мячей стало попадать мне под левую руку. «Ты чувствуешь, как он подстраивается под тебя», — сказал я.
Пока он использовал мои слабые стороны, я пытался использовать его слабости, подрезая мяч. Его мяч при попытке отбить подачу ушел в сетку. «Вращение ему не нравится», — сказал я. Команда пыталась использовать систему отслеживания движений, чтобы оценить наклон ракеток, когда игроки ударяют по мячу, но она оказалась не достаточно чувствительной.
Были и другие ограничения. «Очень рискованно подходить близко к столу», — сказал Санкети, поэтому робот всегда держится на расстоянии не менее двух дюймов от стола, что ослабляет силу вращения, которое он может придать своим ударам. К счастью, многие мои мячи прилетали быстро и низко, и роботу было трудно под них подстроиться. Санкети подозревал, что именно этим объясняются многие промахи с дальней дистанции. Но дело было еще и в том, что робот никогда раньше со мной не играл. На жаргоне, мой стиль игры был «не по зубам», как обувь с необычно короткими шнурками.
«Способ, которым мы это исправим, заключается в том, что у нас есть все мячи, которые он пропустил», — продолжил Санкети. «Мы поместим их в маховик и снова потренируем его. В следующий раз, когда вы придете, он будет играть лучше». За четыре недели этого лета, получив данные всего от пары десятков игроков, робот прошел путь от неловкого новичка до игрока с уровнем выше среднего. «Цель — достичь сверхчеловеческой производительности?» — спросил я.
«Да», — ответил Санкети. За его спиной находился еще один стол для настольного тенниса с похожей установкой, только с каждой стороны было по роботу. Я понял, к чему все идет.
DeepMind, основанная в 2010 году как лондонская исследовательская лаборатория в области ИИ, наиболее известна моделью под названием AlphaGo, которая победила чемпиона мира в древней настольной игре го. Изначально в AlphaGo была заложена база данных матчей, чтобы она могла имитировать игру экспертов. Позже, обновленная версия обучалась исключительно посредством «самостоятельной игры», сражаясь с копией самой себя. Модель стала поразительно эффективным учеником — образцовым примером техники, известной как «обучение с подкреплением», в котором ИИ обучается не через подражание людям, а методом проб и ошибок. Каждый раз, когда модель случайно находила хороший ход, решения, которые ее к этому привели, подкреплялись, и она становилась лучше. Всего через тридцать часов тренировок она стала одним из лучших игроков на планете.
Однако, собирать данные в физическом мире гораздо сложнее, чем в компьютере. Лучшая модель Google для игры в го DeepMind может сыграть виртуальную игру за считанные секунды, но физика ограничивает скорость мяча для пинг-понга. Роботы компании для настольного тенниса занимают целую комнату, и их только три; исследователям пришлось изобрести устройство в стиле Руба Голдберга с использованием вентиляторов, воронок и лотков для возврата мячей обратно в игру «робот против робота». Сейчас, объясняет Санкети, роботы лучше играют в нападении, чем в защите, что приводит к преждевременному завершению игры. «Нет ничего, что поддерживало бы обмен ударами», — сказал он. Вот почему команде пришлось продолжать обучать роботов в игре против людей.
Робот для настольного тенниса, который мог бы победить всех, звучит как классический DeepMind: исключительно впечатляющее, необычное и понятное достижение. Это было бы еще и полезно — представьте себе неутомимого партнера по игре, который адаптируется по мере того, как вы совершенствуетесь. Но Парада, ведущий специалист по робототехнике, сказал мне, что проект, возможно, сворачивается. Компания Google, которая приобрела DeepMind в 2014 году, а в 2023 году объединила ее с собственным подразделением ИИ Google Brain, не славится смелыми продуктами в области ИИ. (У них сложилась репутация производителей выдающихся и несколько эзотерических исследований, которые размываются до того, как попадают на рынок). По словам Парады, робот для настольного тенниса показал, что он может «думать» достаточно быстро, чтобы участвовать в спортивных соревнованиях, и, взаимодействуя с людьми, может становиться все лучше и лучше в развитии физического навыка. Вместе с неожиданными возможностями ALOHA, эти открытия указали на путь к достижению человеческого уровня ловкости.
Долгое время считалось, что роботы, которые используют обучение с подкреплением, являются тупиковым направлением в робототехнике. Основная проблема заключается в том, что называется разработкой учебной программы: как заставить обучающихся раскрыть свои способности и при этом не потерпеть полного провала? В симуляторе игры в го существует конечное количество ходов и конкретные условия победы; алгоритм может быть вознагражден за любой ход, который ведет к победе. Но в физическом мире существует бесчисленное множество действий. Когда робот пытается вращать ручку, где существует гораздо больше способов потерпеть неудачу, чем преуспеть, как он вообще может определить, что делает успехи? Исследователям кубика Рубика пришлось вручную внедрять в свою систему поощрения, как будто подкидывая роботу хлебные крошки: по их указанию робот получал очки за маневры, которые являются полезными для людей, например, поворот граней кубика точно на девяносто градусов.
Самое загадочное в людях то, что нам присуще стремление изучать что-то новое. Мы сами придумываем себе вознаграждения. Мой сын хотел научиться пользоваться своими руками, потому что был решительно настроен попробовать на вкус все, что видит. Это побуждало его практиковать и другие новые способности, например, ползать или заводить руки за спину. Короче говоря, он сам разработал свою учебную программу. Когда он пробует что-то сложное, у него уже есть запас базовых движений, который помогает ему избегать многих заведомо обречённых стратегий, таких как беспорядочные дергания — то, что будет делать необученный робот. Робот без чёткой программы обучения и без чётких наград не может ничего, кроме как вредить себе.
Роботы из нашего воображения — Робокоп, Терминатор — гораздо прочнее людей, но большинство реальных роботов очень хрупки. «Если вы используете руку робота, чтобы ударить по столу или толкнуть что-то, то она, скорее всего, сломается», — сказал мне Рич Уокер, чья компания Shadow Robot сделала руку, которую OpenAI использовала в своих экспериментах с кубиком Рубика. «Длительные эксперименты с обучением с подкреплением являются пагубными для роботов. Необученные стратегии — это пытка». Это существенно ограничивает возможности роботов. Хрупкий робот не может исследовать физический мир так, как это может делать ребенок. (Младенцы являются удивительно крепкими, и родители обычно вмешиваются до того, как те успеют проглотить игрушки или спрыгнуть с кровати).
В течение последних нескольких лет Shadow Robot разрабатывала то, что выглядит как средневековая перчатка с тремя пальцами, каждый из которых противопоставлен, как большой палец. Слой геля под «кожей» кончиков пальцев украшен маленькими точками, которые снимаются встроенной камерой; рисунок деформируется под давлением. Это помогает «мозгу» робота чувствовать, когда и насколько сильно палец прикасается к чему-то. Первоначальную руку Shadow требовалось перезапускать или обслуживать каждые несколько часов, но последняя может работать сотни часов подряд. Уокер показал мне видео, на котором пальцы выдерживают удары молотком.
Во время недавнего видеозвонка я увидел несколько новых рук Shadow в одной из лабораторий Google DeepMind в Лондоне, висящих в клетках, как кальмары в аквариуме. Пальцы находились в постоянном движении, настолько быстром, что они почти размывались. Я наблюдал, как одна из рук берет желтый кубик, как из конструктора Lego, и пытается вставить его в соответствующее гнездо. Для человека задача тривиальна, но одной трехпалой роботизированной руке с трудом удается переместить кубик, не уронив его. «Это очень неустойчивая задача по своей природе», — объяснил ведущий инженер отдела робототехники DeepMind Франческо Нори. Используя всего три пальца, вам часто приходится прерывать контакт с кубиком и снова устанавливать его, как бы перебрасывая его между пальцами. Незначительные изменения в том, насколько сильно вы сжимаете блок, влияют на его устойчивость. Чтобы продемонстрировать это, Нори зажал свой телефон между большим и указательным пальцами, и когда он ослабил хватку, телефон начал вращаться, но не упал. «Вам нужно достаточно сильно сжать предмет, но не слишком сильно, иначе вы не сможете повернуть его в руке», — сказал он.
Сначала исследователи попросили операторов надеть трехпалые перчатки и обучить стратегию с помощью имитационного обучения в стиле ALOHA. Но операторы уставали уже через тридцать минут, и было что-то неэргономичное в управлении рукой, которая лишь отчасти похожа на вашу собственную. Разные операторы решали задачу по-разному; обученная ими стратегия была успешной лишь в двух процентах случаев. Диапазон возможных действий был слишком широк. Робот не знал, что ему следует имитировать.
Команда переключилась на обучение с подкреплением. Они научили робота анализировать успешные симуляции хитроумным способом — разбивая каждую демонстрацию на серию подзадач. Затем робот отрабатывал эти подзадачи, переходя от более простых к более сложным. По сути, робот следовал своему собственному плану обучения. Обученный таким образом, робот научился большему, используя меньше данных; в шестидесяти четырех процентах случаев он вставлял кубик в гнездо.
Когда команда только приступила к выполнению своей стратегии, блок был ярко-желтого цвета. Но эта задача выполнялась так много раз, что пыль и металл c пальцев робота привели к почернению краев. «Эти данные действительно ценны», — сказала научный сотрудник проекта Мария Бауза. Полученные данные позволят усовершенствовать симуляцию, что улучшит реальную стратегию, которая в свою очередь еще больше уточнит симуляцию. При этом человеку не придется вмешиваться в процесс.
В компании Google, как и во многих других ведущих академических и промышленных исследовательских лабораториях, вам может показаться, что вы находитесь в мастерской по ремонту дроидов из «Звёздных войн». В Маунтин-Вью, пока я наблюдал за работой одного из ALOHA, рядом стоял дружелюбный на вид небольшой робот на колёсах, как в фильме «WALL-E». За углом находилась гигантская пара рук, которая, по словам одного из исследователей проекта, способна ломать кости «без особого труда». (У робота есть защитные механизмы, чтобы этого не допустить). Он складывал блоки — своего рода супер-ALOHA. В лондонской лаборатории работает команда футбольных роботов-гуманоидов высотой около 50 см. Исторически сложилось так, что все марки и модели роботов были отдельными: код, который вы использовали для управления одним, не мог использоваться для управления другим. Но сейчас исследователи мечтают о том дне, когда один ИИ сможет управлять любым типом робота.
Специалисты по информатике раньше разрабатывали различные модели для перевода, скажем, с английского на французский или с французского на испанский. В конце концов, они объединились в модели, которые могли переводить между любыми парами языков. Тем не менее, перевод рассматривался как проблема, отличная от транскрипции речи или распознавания изображений. У каждого из этих направлений были свои исследовательские команды или компании. Затем появились БЯМ. Было удивительно, что они не только могли переводить языки, но и сдавать экзамены на юриста, писать компьютерный код и многое другое. Вся эта мешанина слилась в единый ИИ, и обучение ускорилось. Последняя версия ChatGPT позволяет разговаривать с вами вслух на десятках языков на любую тему, петь для вас и даже оценивать интонацию вашего голоса. Все, что оно может делать, оно делает лучше, чем отдельные модели, ранее предназначенные для конкретных задач.
То же самое происходит и в робототехнике. На протяжении большей части истории этой области вы могли бы написать целую диссертацию об узком направлении, таком как зрение, планирование, передвижение или, что действительно сложно, о ловкости. Но «базовые модели», такие как GPT-4, в значительной степени включили в себя модели, помогающие роботам с планированием и зрением, а передвижение и ловкость, вероятно, скоро будут тоже поглощены. Это становится верным даже для разных «воплощений». Недавно большой консорциум исследователей показал, что данные могут успешно передаваться с одного типа машины на другой. В «Трансформерах» один и тот же мозг управляет Оптимусом Праймом, будь он гуманоидом или грузовиком. А теперь представьте, что он также может управлять промышленным манипулятором, флотом дронов или четырехногим грузовым роботом.
Человеческий мозг пластичен, когда дело доходит до механизмов, которыми он может управлять: даже если вы никогда не пользовались протезом, вы, вероятно, чувствовали, как гаечный ключ или теннисная ракетка становятся продолжением вашего тела. Проезжая мимо припаркованного рядом автомобиля, вы интуитивно понимаете, будет ли задето ваше зеркало со стороны пассажира. Есть все основания полагать, что будущее поколение ИИ приобретет ту же двигательную пластичность, что и настоящий мозг. «В конечном итоге, мы увидим что-то вроде единого интеллекта», — сказала мне Киртана Гопалакришнан, научный сотрудник, работающий над роботами в Google DeepMind. Для этого стартап Figure, разрабатывающий гуманоидов, заключил партнерство с OpenAI для воплощения БЯМ в телесной форме; OpenAI начала нанимать команду робототехников после многолетнего перерыва.
Профессор робототехники из Стэнфорда Челси Финн, принимавшая участие в ранней разработке ALOHA, несколько лет проработала в Google. Но недавно она покинула компанию, чтобы стать соучредителем стартапа Physical Intelligence, который стремится создать программное обеспечение, способное управлять любым роботом. (Дрис, который показывал мне ALOHA, присоединился к ней). Около месяца назад Physical Intelligence анонсировал свою первую «универсальную роботизированную стратегию». На видео двурукий робот выгружает белье из сушилки в корзину, подкатывает корзину к столу, а затем складывает рубашки и шорты, размещая их стопкой. «Когда я впервые увидела, как робот складывает пять вещей подряд из корзины для белья, это, пожалуй, был самый захватывающий момент в моей исследовательской работе», — сказала мне Финн. ИИ, управляющий этим впечатляющим зрелищем, называется π₀, и, по сообщениям, может управлять полудюжиной разных воплощений и с помощью единой стратегии решать множество задач, которые могут поставлены перед ALOHA: упаковка продуктов, сборка коробки, уборка стола после ужина. Это достигается путем комбинирования имитационного обучения с моделью в стиле ChatGPT, которая обладает широкими знаниями о мире и может понимать изображения. «Безусловно, это только начало», — сказала Финн.
Когда мы думаем о будущем с роботами, мы обычно представляем себе Рози из «Джетсонов»: гуманоида, выполняющего домашние дела. Но революция роботов не закончится на антропоморфных машинах, складывающих рубашки. Я живу в Нью-Йорке, и практически все, что я вижу, было создано человеческими руками. Центральный парк выглядит естественным, но когда-то это было в основном безликим болотом. Тысячи рабочих потратили годы на создание водохранилища, озера и холмов. Их руки втыкали лопаты в землю, чтобы построить склоны, поджигали фитили для разрушения скал и сажали саженцы в почву.
Несколько лет назад в центре переработки отходов рядом с аэропортом в Цюрихе в Швейцарии, работал очень большой манипулятор. Это был автономный экскаватор, разработанный исследователями из ETH Zürich, который возводил подпорную стену. С помощью гидравлического захвата на конце своей руки он поднимал валун и вертел его, будто рассматривая фрукт. Экскаватор направлялся к растущей куче — будущей стене, следуя плану, заложенному в программное обеспечение, — и алгоритм предсказывал, как новый камень ляжет на остальные. Экскаватор, ослабляя хватку, аккуратно укладывал камень, а затем возвращался за следующим. Когда 65-метровая стена была завершена, она содержала почти тысячу валунов и кусков переработанного бетона. Она образовала границу нового парка. Робот работал примерно так же быстро, как и опытный рабочий с экскаватором.
Райан Люк Джонс, ведущий исследователь проекта, управляет компанией под названием Gravis Robotics, чей девиз — «Коснись пальцем, сдвинь гору». Он предвидит, что «адаптивное повторное использование» материалов может вытеснить бетон, и строительство станет дешевле и привлекательнее. Роботы могли бы создавать новые центральные парки. Легко понять привлекательность этой идеи и представить себе риски, связанные с высвобождением столь большой мощи в мире. Уже сейчас мы обнаружили, что ИИ сложно контролировать. По соображениям безопасности, чат-ботам запрещено создавать определенный контент — дезинформацию, порнографию, инструкции по созданию биологического оружия — но они регулярно «взламываются» любителями с помощью простых запросов. Если ИИ, говорящий об оружии, опасен, представьте себе ИИ, который сам является оружием: гуманоидный солдат, снайперский дрон, бомба, способная думать. Если модели робототехники окажутся не зависящими от конкретного воплощения, то та же стратегия, которая сегодня побеждает людей в настольный теннис, может когда-нибудь кого-то застрелить. «Производители беспилотников сейчас решают эту проблему», — рассказал мне один ученый из МТИ. «Они могут заявить: „Мы будем продавать только определенным людям, и мы никогда не будем продавать дроны с оружием.“ На самом деле это никого не останавливает…» В войне на Украине дроны, предназначенные для аэрофотосъемки, превратились в дистанционно управляемые взрывные устройства. Если такие дроны станут автономными, военные смогут утверждать, что они не отдавали приказа на ту или иную атаку — это сделали роботы. «Вы не можете наказать неодушевленный предмет», — написал Ноэль Шарки, почетный профессор информатики в Шеффилдском университете в Англии. «Возможность распределения ответственности имеет важной значение для законов войны». По некоторым оценкам, более девяноста стран имеют программы по созданию военных роботов, в основном беспилотников. Несколько ведущих военных держав мира не присоединились к резолюции ООН, которая могла бы ограничить использование таких дронов.
Мирные роботы также могут внести сумятицу в нашу жизнь. Я говорил с основателем небольшого стартапа, который разрабатывает полуавтономного человекоподобного робота для уборки дома. Идея заключается в том, что, когда вы на работе, робот может выдвигаться из вашего шкафа и наводить порядок, а если что-то пойдет не так, за дело возьмется оператор из Индии или Филиппин. Этот подход мог бы сэкономить много времени и денег. С другой стороны, он мог бы отобрать у людей работу. Когда я спросил, что станет с домработницами, зарабатывающими на жизнь выполнением такой работы на местах, основатель компании ответил, что они могли бы подать заявку на получение дивидендов. «В рамках капитализма существует стимул заменить труд капиталом, заменить людей машинами», — сказал мне Марк Коккельберг, профессор философии из Венского университета, специализирующийся на этике ИИ. Он указал, что слово «робот» происходит от чешского слова robota, что означает «принудительный труд». «Но не все задачи должны быть переданы роботам. Это в наших руках. Это своего рода упражнение — подумать, какую работу мы хотим поручить людям?»
Рассуждать о будущем роботов с ИИ, — все равно что пытаться представить себе промышленную революцию глазами шляпника девятнадцатого века. Мы слишком привыкли к тому, что физические навыки ограничены одним телом. Я помню, где я был, когда впервые научился крутить ручку: в пустой аудитории в Мейсон-Холле на территории кампуса Мичиганского университета. Я увидел, как это делает мой друг, и затем попрактиковался. Это заняло несколько часов. Если другие люди захотят научиться этому же трюку, им тоже придется практиковаться. Но если робототехники перенесут физические навыки в виртуальную плоскость, они смогут распространять их так же легко, как новое приложение для смартфона. Как только один робот научится завязывать шнурки, это смогут делать все. Представьте, что можно скопировать и вставить не только рецепт омлета, но и сам процесс его приготовления.
В раннем возрасте у моего сына был странный результат анализа крови, и нам пришлось взять у него серию анализов. Взять кровь из руки восьминедельного ребенка непросто. В разгар одного довольно ужасного эпизода мы так протестовали, что один флеботомист сказал другому: «Может, позовем Маршу?», имея в виду медсестру, которая была особенно хороша в нахождении вены. Пришла Марша, и она нашла вену без особых проблем. Ей следовало бы застраховать свои руки.
Однажды ИИ направит жужжащую механическую руку, возможно, с гелем на кончиках пальцев, к руке новорожденного, чтобы взять кровь. Трудно сказать, стоит ли радоваться этому дню или опасаться его. Возможно, мне никогда не придется с этим столкнуться. Но я подозреваю, что моему сыну придется. Когда эта мысль приходит мне в голову, я беру его маленькую ручку в свою и сжимаю.