O avanço da inteligência artificial tem proporcionado significativas inovações no campo da robótica. A Google DeepMind apresentou recentemente dois novos modelos de IA, baseados no Gemini 2.0, que prometem revolucionar a interação entre humanos e máquinas. Esses modelos, denominados Gemini Robotics e Gemini Robotics-ER, foram desenvolvidos para expandir as capacidades dos robôs em tarefas do mundo real.
Esses modelos foram projetados para permitir que robôs realizem uma variedade de tarefas, desde dobrar papéis em origami até organizar objetos. A diretora sênior e chefe de robótica da empresa, Carolina Parada, destacou que esses avanços são parte de um esforço contínuo para criar robôs mais úteis e versáteis. A parceria com a Apptronik para desenvolver robôs humanoides é um exemplo desse compromisso.
O Que é o Gemini Robotics?
O Gemini Robotics é um modelo avançado que combina visão, linguagem e ação, baseado no Gemini 2.0. Este modelo incorpora ações físicas como uma nova modalidade de saída, permitindo o controle direto de robôs. Essa tecnologia utiliza o entendimento do mundo do Gemini para lidar com situações novas e resolver uma ampla gama de tarefas, mesmo aquelas não previstas durante o treinamento.
O modelo é projetado para ser adaptável a diferentes tipos de robôs, o que o torna versátil para diversas aplicações. Ele foi treinado principalmente na plataforma robótica de dois braços, ALOHA 2, mas também demonstrou eficácia em controlar plataformas baseadas nos braços Franka, comuns em laboratórios acadêmicos. Essa flexibilidade permite que o Gemini Robotics seja utilizado em robôs humanoides, como o Apollo, desenvolvido pela Apptronik.
Quais são as capacidades do Gemini Robotics-ER?
O Gemini Robotics-ER é uma extensão do modelo Gemini, com ênfase na compreensão espacial avançada. Ele permite que os roboticistas criem seus próprios programas utilizando as habilidades de raciocínio incorporado do Gemini. Esse modelo aprimora significativamente as capacidades existentes, como a detecção 3D e o apontamento preciso.
Uma das principais características do Gemini Robotics-ER é sua capacidade de gerar novas habilidades instantaneamente. Por exemplo, ao identificar uma caneca de café, o modelo pode determinar a melhor forma de segurá-la e calcular uma trajetória segura para alcançá-la. Essa habilidade de executar etapas complexas, desde a percepção até a geração de código, torna o modelo extremamente útil em aplicações práticas.
Como a segurança é abordada na robótica Gemini?
A segurança é uma preocupação central no desenvolvimento de robôs, e a Google DeepMind adota uma abordagem holística para garantir a segurança tanto dos robôs quanto das pessoas ao seu redor. O Gemini Robotics-ER é projetado para se integrar a controladores de segurança de baixo nível, específicos para cada modalidade.
Esses controladores ajudam a evitar colisões, limitar a força de contato e garantir a estabilidade dos robôs móveis. Além disso, a empresa está lançando um novo conjunto de dados para avaliar e melhorar a segurança semântica em IA incorporada e robótica. A colaboração com especialistas internos e externos visa garantir que o desenvolvimento de aplicativos de IA seja feito de forma responsável e segura.
O futuro da robótica com Gemini 2.0
Os avanços trazidos pelo Gemini 2.0 representam um passo significativo na evolução da robótica. Com a capacidade de realizar tarefas complexas e adaptar-se a novos ambientes, esses modelos têm o potencial de transformar a forma como interagimos com robôs no dia a dia. A parceria com empresas como a Apptronik e o foco na segurança indicam um futuro promissor para a robótica, onde máquinas e humanos poderão trabalhar juntos de maneira mais eficiente e segura.