Технологии1 месяц назад 1 мин

Physical Intelligence представила ИИ π0.7 для роботов с адаптивными навыками

Стартап Physical Intelligence, основанный бывшими инженерами Google, представил модель искусственного интеллекта π0.7. Она позволяет роботам выполнять задачи, которым их не обучали напрямую, демонстрируя способность к композиционному обобщению и адаптации к новым условиям.

Мария ЛебедеваРедактор по DeFi и технологиям

Physical Intelligence представила ИИ π0.7 для роботов с адаптивными навыками

Стартап Physical Intelligence, созданный бывшими инженерами Google, анонсировал новую модель искусственного интеллекта под названием π0.7. Разработчики утверждают, что это решение представляет собой значительный прорыв в способности ИИ обобщать навыки и выполнять сложные задачи, для которых не было прямого обучения. Данная система относится к категории «зрение-язык-действие» (Vision-Language-Action, VLA) и предназначена для эффективного управления робототехническими комплексами.

Ключевое отличие π0.7 от предшествующих разработок заключается в демонстрации признаков композиционного обобщения. Это означает, что модель способна комбинировать ранее усвоенные навыки для решения совершенно новых задач, проявляя гибкость и адаптивность, ранее недоступные в робототехнике.

Что произошло: «Необученные» навыки и перенос между роботами

В ходе экспериментальных испытаний модель π0.7 проявила ряд неожиданных и впечатляющих способностей. Например, она успешно управляла новым типом робота, складывая футболки, несмотря на полное отсутствие обучающих данных, касающихся именно этой конкретной платформы или задачи. По словам разработчиков, достигнутые результаты сопоставимы с уровнем операторов, обладающих сотнями часов практического опыта в телеуправлении роботами.

Инструмент также продемонстрировал способность самостоятельно разбираться в использовании ранее незнакомых бытовых приборов, включая кухонную технику. В одном из сценариев робот смог выполнить часть задачи по приготовлению батата в аэрогриле, хотя подобных инструкций или обучающих примеров в его базе данных не было. Это стало возможным благодаря уникальной способности модели объединять разрозненные навыки, подобно тому, как большие языковые модели интегрируют знания из различных областей для формирования связного ответа.

Контекст: Управление через язык и многомодальные данные

Одним из фундаментальных преимуществ π0.7 является возможность управления не только через прямые команды «что делать», но и через уточнение «как делать». Модель способна обрабатывать разнообразные входные данные, что значительно расширяет её функциональность:

Текстовые инструкции: Позволяют передавать сложные команды и сценарии.
Метаданные: Включают параметры, такие как желаемая скорость или качество выполнения задачи.
Визуальные субцели: Изображения, демонстрирующие ожидаемый промежуточный или конечный результат каждого шага.

Примечательно, что вспомогательная система может генерировать некоторые из этих визуальных субцелей непосредственно в процессе работы. Это позволяет роботу корректировать своё поведение в реальном времени, без необходимости дополнительного обучения или вмешательства человека. Такой подход также способствует объединению данных из различных источников — видеоматериалов, телеметрии от роботов и автономно собранных эпизодов — в единую, всеобъемлющую систему обучения.

Первый шаг к универсальным роботам

В Physical Intelligence подчеркивают, что ранее подобные модели требовали обширного дообучения под каждую новую задачу, что напоминало ранние этапы развития языковых моделей. π0.7, напротив, функционирует «из коробки» и адаптируется к новым сценариям преимущественно через языковые инструкции. Команда разработчиков особо отметила, что такой уровень обобщения долгое время считался сильной стороной больших языковых моделей (LLM), но оставался практически недостижимым в сфере робототехники.

Несмотря на значительный прогресс, модель пока не всегда способна справиться со сложными задачами без пошаговых подсказок. Однако при наличии последовательных и детализированных инструкций качество выполнения задач заметно возрастает. В будущем такие инструкции могут стать основой для обучения более автономных машин, способных действовать без постоянного участия человека.

В Physical Intelligence убеждены, что π0.7 демонстрирует первые признаки перехода к созданию по-настоящему универсальных роботов. Эти машины смогут адаптироваться к изменяющимся условиям и новым задачам без необходимости ручной настройки или перепрограммирования для каждого конкретного случая. Это открывает широкие перспективы для автоматизации в различных отраслях, от производства до бытового обслуживания.

Что это значит для майнеров и криптоиндустрии

Хотя представленная технология напрямую не связана с криптовалютами или майнингом, развитие искусственного интеллекта и робототехники имеет косвенное значение для всей технологической сферы, включая криптоиндустрию. Улучшение ИИ-моделей может привести к созданию более эффективных систем управления дата-центрами, оптимизации энергопотребления майнинговых ферм и повышению безопасности инфраструктуры. В долгосрочной перспективе, более продвинутые роботы, управляемые такими ИИ, могут автоматизировать процессы обслуживания оборудования, что снизит операционные расходы и повысит надежность работы майнинговых комплексов в России и СНГ. Кроме того, прогресс в ИИ может способствовать развитию децентрализованных автономных организаций (DAO) и смарт-контрактов, делая их более интеллектуальными и адаптивными к меняющимся условиям.

Частые вопросы

Что такое модель π0.7 и кто её разработал?

Модель π0.7 — это новая система искусственного интеллекта класса «зрение-язык-действие» (VLA), разработанная стартапом Physical Intelligence, основанным бывшими инженерами Google. Она предназначена для управления роботами и способна обобщать навыки.

В чем главное отличие π0.7 от предыдущих ИИ для роботов?

Ключевое отличие π0.7 заключается в её способности к композиционному обобщению, позволяющему роботу комбинировать ранее усвоенные навыки для решения совершенно новых задач, которым его не обучали напрямую. Она также может управляться через язык и многомодальные данные.

Как эта технология может повлиять на майнинг и криптоиндустрию?

Хотя напрямую не связана, развитие ИИ, подобного π0.7, может косвенно улучшить эффективность майнинга через оптимизацию управления дата-центрами, снижение энергопотребления и автоматизацию обслуживания оборудования. Это также может способствовать развитию более интеллектуальных DAO и смарт-контрактов.