Participe de nossos boletins informativos diários e semanais para obter as atualizações mais recentes e conteúdo exclusivo sobre a cobertura de IA líder do setor. Saber mais
Desde antropológico Com o lançamento do recurso “Uso do Computador” para Claude em outubro, tem havido muito entusiasmo sobre o que os agentes de IA podem fazer quando têm a capacidade de imitar a interação humana. UM Nova pesquisa por mostrar laboratório Na Universidade Nacional de Cingapura, fornecemos uma visão geral do que esperar da geração atual de agentes de interface gráfica do usuário (GUI).
Claude é o primeiro modelo de fronteira que pode interagir com um dispositivo como um agente GUI através da mesma interface que os humanos usam. O modelo interage apenas acessando capturas de tela da área de trabalho e acionando ações de teclado e mouse. O recurso promete permitir que os usuários automatizem tarefas por meio de instruções simples e sem a necessidade de acesso API aos aplicativos.
Os pesquisadores testaram Claude em uma variedade de tarefas, incluindo pesquisa na web, conclusão de fluxo de trabalho, produtividade no escritório e videogames. As tarefas de pesquisa na Web envolvem navegar e interagir com sites, como pesquisar e comprar itens ou assinar serviços de notícias. As tarefas de fluxo de trabalho envolvem interações com vários aplicativos, como extrair informações de um site e inseri-las em uma planilha. As tarefas de produtividade do escritório testam a capacidade do agente de executar tarefas comuns, como formatar documentos, enviar e-mails e criar apresentações. As tarefas de videogame avaliam a capacidade do agente de executar tarefas de várias etapas que exigem a compreensão da lógica do jogo e do planejamento de ações.
Cada tarefa examina as capacidades do modelo em três dimensões: planejamento, ação e crítica. Primeiro, o modelo precisa apresentar um plano coerente para realizar o trabalho. Ele deve então ser capaz de executar o plano traduzindo cada etapa em uma ação, como abrir um navegador, clicar em elementos e digitar texto. Finalmente, o componente crítico determina se o modelo pode avaliar o seu progresso e sucesso na realização da tarefa. O modelo deve ser capaz de entender se cometeu erros no caminho e corrigir o curso. E se o trabalho não for possível, deve ser dada uma explicação lógica. Os pesquisadores desenvolveram uma estrutura baseada nesses três elementos e revisaram e avaliaram todos os testes realizados por humanos.
Em geral, Claude fez um ótimo trabalho ao realizar tarefas complexas. Foi capaz de raciocinar e planejar as múltiplas etapas necessárias para executar uma tarefa, executar a ação e avaliar seu progresso em cada etapa. Ele pode coordenar diferentes aplicativos, como copiar informações de páginas da web e colá-las em planilhas. Além disso, em alguns casos, analisa os resultados ao final da tarefa para ter certeza de que tudo está de acordo com o objetivo. O traço lógico do modelo mostra que existe um entendimento comum de como diferentes ferramentas e aplicativos funcionam e podem coordená-los de forma eficaz.
No entanto, também tende a cometer erros triviais que os usuários humanos comuns podem facilmente evitar. Por exemplo, em uma tarefa, o modelo não conseguiu concluir uma assinatura porque não rolou uma página da web para encontrar o botão correspondente. Em outros casos, falhou em tarefas muito simples e limpas, como selecionar e substituir texto ou converter marcadores em números. Além disso, o modelo não percebeu o seu erro ou fez suposições incorretas sobre o motivo pelo qual não foi capaz de atingir o objetivo desejado.
Segundo os pesquisadores, os equívocos sobre o progresso do modelo destacam “uma deficiência no método de autoavaliação do modelo” e sugerem que “uma solução completa ainda pode exigir melhorias na estrutura do agente GUI, como um módulo crítico interno rigoroso”. os resultados, também é óbvio que os agentes GUI não podem replicar todas as nuances fundamentais de como os humanos usam os computadores.
O que isso significa para as empresas?
A promessa de usar descrições básicas de texto para automatizar tarefas é muito atraente. Mas, pelo menos por enquanto, a tecnologia não está pronta para implantação generalizada. O comportamento dos modelos pode levar a resultados instáveis e imprevisíveis, o que pode ter consequências prejudiciais em aplicações sensíveis. Executar ações por meio de interfaces projetadas para humanos também não é a maneira mais rápida de realizar tarefas que podem ser realizadas por meio de APIs.
E ainda temos muito que aprender sobre os riscos de segurança de dar o controle de grandes modelos de linguagem (LLMs) ao mouse e ao teclado. Por exemplo, um estudo mostra que os agentes web podem facilmente Atacado por adversários que as pessoas ignorarão facilmente.
A automação em escala ainda requer infraestrutura robusta, incluindo APIs e microsserviços que possam ser conectados com segurança e servidos em escala. No entanto, ferramentas como a computação em nuvem podem ajudar as equipes de produtos a explorar ideias e iterar em diferentes soluções para problemas sem investir tempo e dinheiro no desenvolvimento de novos recursos ou serviços para automatizar tarefas. Depois que uma solução viável for descoberta, a equipe poderá se concentrar no desenvolvimento do código e dos componentes necessários para entregá-la de maneira eficiente e confiável.
Source link