Operator: conheça a IA 'irmã' do ChatGTP que realiza tarefas no computador para você

Por Nilton Cesar Monastier Kleina

24/01/2025 - 09:122 min de leitura

Operator: conheça a IA 'irmã' do ChatGTP que realiza tarefas no computador para você

A OpenAI, dona do ChatGPT, lançou nesta quinta-feira (23) um novo serviço de inteligência artificial (IA). Trata-se do Operator, uma ferramenta capaz de fazer uma série de tarefas para você dentro de um navegador.

O Operator é construído com base no modelo de linguagem GPT-4o, atualmente o mais moderno da companhia e capaz até de argumentar com o usuário dependendo dos prompts, combinado com um novo Computer-Using Agent (ou CUA, na sigla original em inglês).

Isso permite que ele seja capaz de interagir com interfaces gráficas, como botões e menus de um site, e realizar tarefas básicas ou mais complexas dentro de uma página ou aplicativo. Dessa forma, a usabilidade da ferramenta vai muito além de conversar com você ou fazer buscas pela internet: ele de fato realiza ações, como se fosse um assistente pessoal.

<iframe width="560" height="315" src="https://www.youtube.com/embed/gYqs-wUKZsM?si=lLz20UBO2nYXQWiv" title="YouTube video player" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture; web-share" referrerpolicy="strict-origin-when-cross-origin" allowfullscreen></iframe>

Outras empresas já estão desenvolvendo ou começaram testes públicos com os próprios agentes de IA. É o caso da Anthropic, dona do chatbot Claude, e a DeepMind, laboratório da Google no setor. A OpenAI, entretanto, garante que fez experimentos com os concorrentes e o Operator se saiu melhor em todas as atividades.

Como o Operator funciona

Ao receber um comando via texto, assim como outros chatbots, o Operator processa os dados da tela pixel a pixel para entender a interface da página em questão e viabilizar a ação solicitada. Ele usa uma captura de tela para ter esse contexto e entender a tarefa como algo multimodal — que vai usar algo além de apenas escrita, por exemplo.

A IA então usa um teclado e um cursor virtuais para navegar pelos sites, acessar links e até preencher formulários de acordo com dados fornecidos pelo usuário. Ele pode fazer tudo isso sem precisar de autorização de APIs ou algo do tipo, exatamente como se fosse um humano acessando os endereços.

25_01_24_085227.jpg
Um exemplo de navegação do Operator por um site de turismo. (Imagem: Reprodução/OpenAI)

Em um dos vídeos de demonstração, o funcionário da OpenAI pede ao Operator para pesquisar uma receita específica em um site especializado e adicionar certos ingredientes a um carrinho de compras de uma loja virtual. Todas as ações do navegador são feitas em tempo real e o usuário pode apenas assistir enquanto a ferramenta faz todo o trabalho.

As tarefas usadas como exemplo incluem reservar uma mesa em um restaurante, comprar ingressos para um show, pedir comida por delivery e solicitar um carro de transporte por aplicativo.

Os prompts são totalmente customizáveis com orientações do usuário, como solicitações de ingredientes que o prato desejado não pode ter ou os melhores horários para uma reserva, por exemplo. Esse histórico é armazenado apenas para uso individual e comandos similares podem ser refeitos com um único clique nas próximas sessões.

<iframe width="560" height="315" src="https://www.youtube.com/embed/m0Cjiq8P6iU?si=rpo0VtwN4WXbcgSE" title="YouTube video player" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture; web-share" referrerpolicy="strict-origin-when-cross-origin" allowfullscreen></iframe>

Como esse é um modelo de linguagem mais avançado, ele é capaz de aprender com as solicitações e levar em conta ações anteriores para melhorar o próprio desempenho, principalmente ao repetir tarefas em um mesmo site. O usuário só precisa interferir em casos específicos, como passar pela autenticação de um CAPTCHA ou inserir login e senha, que são dados sensíveis não capturados pela IA.

Disponibilidade

Por enquanto, o uso do Operator está limitado a usuários dos Estados Unidos e tarefas em sites específicos. Só assinantes do plano ChatGPT Pro, que é a versão mais cara do plano pago da empresa, terão acesso inicialmente ao serviço.

O chatbot que navega para você estará disponível em breve em outros países e também para assinantes de outros planos, como o Plus e o corporativo.

A OpenAI ainda prometeu disponibilizar o CUA do Operator para que mais desenvolvedores consigam construir os próprios agentes de IA para fazer tarefas mais específicas em um navegador. Ela também continuará trabalhando na ferramenta para que, nas próximas atualizações, ela seja capaz de realizar tarefas ainda mais complexas.


Por Nilton Cesar Monastier Kleina

Especialista em Analista

Jornalista especializado em tecnologia, doutor em Comunicação (UFPR), pesquisador, roteirista e apresentador.


Veja também


Fontes