«2024-2025-й будут полны впечатляющих достижений ИИ в робототехнике»

«2024-2025-й будут полны впечатляющих достижений ИИ в робототехнике»
В середине марта появилось две новости, которые заставили всех обсуждать роботов: сначала компании OpenAI и Figure показали совместного андроида, работающего на базе технологий ChatGPT! Затем технологический гигант Nvidia представил проект GR00T — свою платформу для создания человекоподобных роботов, которые смогут учиться выполнять ту или иную работу, наблюдая за людьми! Кажется, до появления дроидов из «Звездных войн» или «Кибердеревни» остался один шаг? Или больше? На вопросы Константина Крылова из «Собака.ру» отвечает профессор факультета систем управления и робототехники, руководитель лаборатории BE2R ИТМО Сергей Колюбин.

«ChatGPT внедрили в тело робота», «Теперь у ChatGPT есть тело» — такие заголовки появились в новостных лентах в середине марта. Так мировые СМИ отреагировали на презентацию прототипа Figure 1 — человекоподобного робота, который стал плодом сотрудничества стартапа Figure и компании OpenAI, создавшей ChatGPT. Среди инвесторов проекта такие гиганты, как Microsoft, Intel, основатель Amazon Джефф Безос.

Хотя в коротком промовидео не говорилось ни о коммерческих перспективах Figure 1, ни о создании промышленного продукта на его основе, видео произвело фурор, набрав почти 1,5 млн просмотров меньше чем за неделю. Пользователей поразило, как робот описывает находящиеся перед ним предметы, на просьбу передать что-то съедобное реагирует тем, что дает человеку яблоко, и объясняет, почему он выбрал этот предмет, одновременно собирая мусор со стола. «Этот робот-гуманоид с возможностями OpenAI почти пугает», — писало Yahoo News.



И без того большой эффект, который произвела презентация OpenAI, через несколько дней усилила компания Nvidia, известная как один из главных производителей видеокарт на планете. Она представила свою платформу GR00T, которая должна стать основой для создания человекоподобных роботов. Самое сенсационное в анонсе проекта — обещание, что роботы сами смогут учиться движениям, наблюдая за людьми.    

- Почему GR00T и Figure 1 наделали столько шума?

- Презентации нам действительно показывают большой прогресс, и он заключается не в том, насколько четко и быстро двигаются роботы, а в том, что появилась технология, на основе которой решаются задачи верхнего уровня управления.

Что я имею в виду? Типичная система управления роботом строится из трех уровней. На верхнем происходит оркестровка — это поиск причинно-следственных связей между объектами в окружающем пространстве и принятие решений, что и в какой последовательности делать. На среднем, тактическом, — идет расчет траекторий и координация конкретных движений. На нижнем — реализуется управление локальными приводами для отработки спланированного движения.

Так вот, робототехника уже давно получила методы и модели для решения задач среднего и нижнего уровней, а вот эффективных и универсальных инструментов для верхнего уровня долгое время не было. Большие языковые модели (вроде GPT) могут рассматриваться как enabling technology, то есть обеспечивающая технология, открывающая новые возможности.



- Что в GROOT и Figure 1 самое впечатляющее?

- Многие обсуждают, что в ответ на просьбу передать что-то съедобное Figure 1 протягивает человеку яблоко. Честно скажу, мне кажется, это как раз достаточно дешевый трюк. Ранее существовавшие технологии вполне могли бы с этим справиться. Сначала надо прописать свойства для каждого класса объектов, а затем сделать так, чтобы робот, снабженный системой компьютерного зрения, соотносил результат распознавания предметов с этой "табличкой". Конечно, для этого в ней должна быть графа «съедобное/несъедобное». Хотя, конечно, здорово, что Figure 1 справляется с этой задачей очень быстро, без каких-то затыков и раздумий на несколько минут.

А вот что более интересно — это начало ролика, когда робот объясняет, что находится перед ним: вот стоит стол, рядом человек, на столе лежит яблоко. Это называется Scene understanding — понимание сцены, того, как объекты располагаются в пространстве и какие отношения их связывают. Это как раз то, что обеспечивают технологии OpenAI в виде мультимодальных визуально-языковых моделей (VLM).

Следующим шагом в этом направлении станет создание общих моделей понимания физического мира, желательно описывающих все наши знания о законах природы не в терабайтах статистической информации, а в компактной форме, наподобие формулы второго закона Ньютона, только в интерпретируемом машиной виде. Над этим сейчас бьются многие сильные научные группы. И это, на мой взгляд, станет поворотным моментом не только в робототехнике, но и в концепции общего или сильного ИИ в целом.

Что касается заявленного в GR00T постоянного обучения в ходе наблюдения за людьми — это известный подход адаптивного или непрерывного обучения (continual learning), но здесь нужно победить проблему катастрофического забывания. Нейросети хорошо помнят то, что было недавно, но из их памяти стирается более отдаленное прошлое. Поэтому самый большой вызов как раз не в том, чтобы сделать робота, который будет постоянно учиться, наблюдая за людьми, а в том, чтобы он не забывал те навыки, которыми овладел. Способность отслеживать долгосрочные связи через механизм внимания является одним из преимуществ трансформенных моделей, на которых строится GPT. Но специалисты по когнитивным архитектурам говорят, что для воспроизведения умственных способностей человека система должна включать сразу несколько механизмов памяти: рабочей, процедурной, ассоциативной, темпоральной, короткой и длинной. Так что, возможно, в скором времени мы упремся в очередной технологический барьер, для преодоления которого придется вновь возвращаться к серьезным исследованиям.

Еще крайне интересным здесь является способ программирования роботов через методы передачи навыков (skill transfer). Сначала роботы так могут учиться кодировать навыки, просматривая демонстрации, выполняемые или контролируемые человеком, а потом еще и обмениваться этими способностями друг с другом. То есть один робот научился чему-то и может передать эти знания другому: как в фильме «Матрица» — воткнул флешку и научился летать на вертолете или овладел навыками карате. В целом это уже наметившийся тренд, и его последствия могут по-настоящему впечатлить.      



- Что все это значит?

- Если коротко, это может серьезно продвинуть робототехнику именно с точки зрения создания автономных универсальных роботов. Не «умных машин», которые настроены под одну конкретную задачу, а именно роботов, которые обладают большим, а главное, расширяемым набором навыков и способны работать в динамическом окружении, когда пространство вокруг постоянно меняется и нет какой-то заданной карты передвижения. Проще говоря, это может привести к появлению роботов, которые могут выполнять разные задачи в открытом мире.

Под задачами я подразумеваю сложные операции вроде теста Возняка, то есть приготовления кофе на чужой кухне или ремонта автомобиля, когда робот поднимает капот, находит неисправность и устраняет ее. Или представьте робота - работника нефтедобывающей платформы, который может перемещаться по конструкциям и проверять, нет ли где утечки. А если обнаруживается проблема, робот сам поймет, как ее устранить или минимизировать угрозу. При этом он будет опираться не на строгие инструкции, а сам решит, какие движения ему нужно совершить.

Это в свою очередь приведет к тому, что ручной труд на открытом пространстве вроде фермерства, работы лесоруба, автомеханика может быть очень серьезно автоматизирован. Куда больше, чем это представлялось совсем недавно.



- То есть роботы из «Звездных войн» уже здесь?

- Смотря о ком речь — об R2D2 или о C3PO. Но если серьезно, то нет. Есть такое известное когнитивное искажение, когда человек переоценивает эффект от каких-то изменений в короткой перспективе и недооценивает их влияние на долгосрочном уровне. Сейчас идет хайп по поводу возможностей генеративного ИИ, люди ждут, что все поменяется прямо сейчас. Глава Nvidia Дженсен Хуанг говорит о том, что в робототехнике настал GPT-момент и что большой прорыв прямо за углом. Я согласен, что 2024-2025-й будут полны впечатляющих достижений ИИ в робототехнике, которые способны затмить поднадоевшие «болталки» и «рисовалки», но есть нюансы.

Как робототехник я совершенно четко понимаю, что как только вы пытаетесь масштабировать какое-то решение, поместить его в физическое пространство, то требования к его функционированию, надежности и безопасности очень заметно вырастают. Вы можете сколько угодно радоваться, когда в ходе демонстрации чат-бот в 50 % случаев отвечает лучше, чем человек, но вряд ли кто-то согласится купить робота, который верно выполняет лишь каждую вторую просьбу.

Кроме того, сейчас стало очевидно, что мозги роботов развиваются быстрее, чем тело — приводы, датчики, сенсоры. Соответственно, рывок нужен и здесь. Поэтому я бы стал ждать появления каких-то понятных и успешных применений автономных мультизадачных роботов в течение ближайших лет 5–7. Кстати, вовсе не обязательно, чтобы они были полностью антропоморфными. Да, наша среда построена под человека, но не следует отказываться от возможности придать роботу тот вид, который может наилучшим образом помочь ему выполнять ту или иную функцию.

И в завершение хотелось бы сказать еще одну вещь. На примере ChatGPT и творческих профессий мы увидели, что технологии не заменили человека, а скорее профессионалы получили очень удобный инструмент для работы — нейросети заменили лишь неквалифицированный труд в этих областях. Вполне возможно, что то же самое произойдет и с ручным трудом благодаря интеллектуальным роботам.

В иллюстрации использовано изображение автора Konkapp (CCBY3.0) с сайта https://thenounproject.com/  и изображение с сайта https://ru.freepik.com/
04.06.2024
Важное

Летающий автомобиль китайского производителя электромобилей Xpeng совершил первый полет в Пекине.

18.06.2024 17:00:00

МОК объявил об учреждении Олимпийских киберспортивных игр. Как инициативу оценивают эксперты?

18.06.2024 13:00:00

Новый проект NASA поможет астрономам точнее изучать вселенную.

18.06.2024 09:00:00
Другие Интервью

Интервью с уругвайским фотографом Хулио Эизменди.

Интервью с норвежским книготорговцем, редактором и издателем Пилом Каппеленом Смитом.

Интервью с директором Русского дома в Чили Ниной Миловидовой.

Интервью с владельцем исландского книжного магазина The Old Bookstore Эйтором Йовинссоном.