Participe de nossos boletins informativos diários e semanais para obter as atualizações mais recentes e conteúdo exclusivo sobre a cobertura de IA líder do setor. Saber mais
O próximo passo na IA agente pode ser apenas a avaliação e monitorização, uma vez que as empresas querem tornar os seus agentes mais observáveis.
Embora os benchmarks do agente de IA possam ser enganosos, há muito valor em verificar se o agente está funcionando conforme o esperado. Para esse fim, as empresas estão começando a oferecer plataformas onde os clientes podem colocar agentes de IA em sandbox ou avaliar seu desempenho.
Força de vendas Na quarta-feira lançou sua plataforma de avaliação de agentes, AgentForce Testing Center, em um piloto limitado. Disponibilidade geral é esperada em dezembro O centro de testes permite que as empresas observem e criem protótipos de agentes de IA que acessam os fluxos de trabalho e os dados de que precisam.
Os novos recursos do Testing Center incluem testes gerados por IA para Agentforce, sandbox e nuvem de dados para Agentforce e monitoramento e observabilidade para Agentforce.
Os testes gerados por IA permitem que as empresas utilizem modelos de IA para criar “centenas de interações sintéticas” para ver se os agentes respondem da maneira que as empresas desejam. Como o nome sugere, os sandboxes fornecem um ambiente isolado para testar agentes enquanto espelham os dados de uma empresa para refletir melhor como os agentes trabalharão para eles. O monitoramento e a observabilidade permitem que as empresas tragam uma trilha de auditoria para o sandbox quando os agentes entram em produção.
Patrick Stokes, vice-presidente executivo de marketing de produtos e indústria da Salesforce, disse à VentureBeat que o centro de testes faz parte de uma nova classe de agentes que a empresa chama de gerenciamento do ciclo de vida do agente.
“Acreditamos que haverá uma grande nova subcategoria de agentes”, disse Stokes. “Quando dizemos ciclo de vida, queremos dizer tudo, desde a gênese até o desenvolvimento, passando pela implantação e, em seguida, iterando sua implantação à medida que avança.”
Stokes disse que, no momento, o Testing Center carece de insights específicos de fluxo de trabalho, onde os desenvolvedores possam ver preferências específicas em APIs, dados ou modelos usados pelos agentes. No entanto, o Salesforce coleta esse tipo de dados em sua camada de confiança do Einstein.
“O que estamos fazendo é construir ferramentas de desenvolvedor para expor esses metadados aos nossos clientes, para que eles possam usá-los para construir melhor seus agentes”, disse Stokes.
A Salesforce está apostando nos agentes de IA, concentrando grande parte de sua energia em sua oferta de agente, AgentForce. Os clientes do Salesforce podem usar agentes predefinidos ou criar agentes personalizados no Agentforce para se conectarem às suas instâncias.
Avaliação de agentes
Os agentes de IA afetam muitos pontos de uma organização e, como bons ecossistemas de agentes visam automatizar grande parte do fluxo de trabalho, torna-se essencial garantir que funcionem bem.
Se um agente decidir usar a API errada, isso pode significar um desastre para uma empresa. Os agentes de IA são de natureza estocástica, pois os modelos os alimentam e consideram todas as probabilidades possíveis antes de chegar a um resultado. Stokes disse que a Salesforce testa os agentes bloqueando agentes com a mesma pronúncia ou versão da pergunta. Suas respostas são pontuadas como aprovado ou reprovado, permitindo que o agente aprenda e se desenvolva em um ambiente seguro que os desenvolvedores humanos possam controlar.
As plataformas que ajudam as empresas a avaliar os agentes de IA estão rapidamente se tornando um novo tipo de oferta de produtos. Em junho, a empresa de IA de experiência do cliente a serra Introduziu um benchmark de agente de IA chamado TAU-bench para observar o desempenho de agentes de conversação. Empresa de automação UiPath sua libertação Plataforma Agent Builder em outubro Também fornece uma maneira de avaliar o desempenho do agente antes da implantação completa.
Testar aplicativos de IA não é novidade. Além de avaliar o desempenho do modelo, muitos repositórios de modelos de IA, como AWS Bedrock e Microsoft Azure, já permitem que os clientes testem modelos básicos em um ambiente controlado para ver qual funciona melhor para seus casos de uso.
Source link