Apresentando o uso do computador, um novo Soneto Claude 3.5 e Haiku Claude 3.5

Hoje, estamos anunciando um Claude 3.5 Sonnet atualizado e um novo modelo, o Claude 3.5 Haiku . O Claude 3.5 Sonnet atualizado oferece melhorias gerais em relação ao seu antecessor, com ganhos particularmente significativos em codificação — uma área em que ele já liderava o campo. O Claude 3.5 Haiku corresponde ao desempenho do Claude 3 Opus, nosso maior modelo anterior, em muitas avaliações em uma velocidade semelhante à geração anterior do Haiku.

Também estamos introduzindo um novo recurso inovador em beta público: uso de computador . Disponível hoje na API , os desenvolvedores podem direcionar o Claude para usar computadores da maneira que as pessoas fazem — olhando para uma tela, movendo um cursor, clicando em botões e digitando texto. O Claude 3.5 Sonnet é o primeiro modelo de IA de fronteira a oferecer uso de computador em beta público. Neste estágio, ele ainda é experimental — às vezes incômodo e propenso a erros. Estamos liberando o uso de computador antecipadamente para feedback dos desenvolvedores e esperamos que o recurso melhore rapidamente ao longo do tempo.

Asana, Canva, Cognition, DoorDash, Replit e The Browser Company já começaram a explorar essas possibilidades, realizando tarefas que exigem dezenas, e às vezes até centenas, de etapas para serem concluídas. Por exemplo, a Replit está usando os recursos do Claude 3.5 Sonnet com uso de computador e navegação de IU para desenvolver um recurso-chave que avalia aplicativos conforme eles estão sendo criados para seu produto Replit Agent.

O Claude 3.5 Sonnet atualizado agora está disponível para todos os usuários. A partir de hoje, os desenvolvedores podem construir com o uso do computador beta na Anthropic API, Amazon Bedrock e Vertex AI do Google Cloud. O novo Claude 3.5 Haiku será lançado no final deste mês.

Claude 3.5 Sonnet: Habilidades de engenharia de software líderes do setor

 

Claude 3.5 Sonnet atualizado mostra melhorias abrangentes em benchmarks do setor, com ganhos particularmente fortes em tarefas de codificação de agente e uso de ferramentas. Na codificação, ele melhora o desempenho no SWE-bench Verified de 33,4% para 49,0%, pontuando mais alto do que todos os modelos disponíveis publicamente, incluindo modelos de raciocínio como OpenAI o1-preview e sistemas especializados projetados para codificação de agente. Ele também melhora o desempenho no TAU-bench , uma tarefa de uso de ferramenta de agente, de 62,6% para 69,2% no domínio do varejo e de 36,0% para 46,0% no domínio mais desafiador da companhia aérea. O novo Claude 3.5 Sonnet oferece esses avanços pelo mesmo preço e velocidade de seu antecessor.

Os primeiros comentários dos clientes sugerem que o Claude 3.5 Sonnet atualizado representa um salto significativo para a codificação alimentada por IA. O GitLab, que testou o modelo para tarefas DevSecOps, descobriu que ele forneceu um raciocínio mais forte (até 10% em todos os casos de uso) sem latência adicional, tornando-o uma escolha ideal para alimentar processos de desenvolvimento de software de várias etapas. A Cognition usa o novo Claude 3.5 Sonnet para avaliações autônomas de IA e experimentou melhorias substanciais em codificação, planejamento e resolução de problemas em comparação com a versão anterior. A Browser Company, ao usar o modelo para automatizar fluxos de trabalho baseados na web, observou que o Claude 3.5 Sonnet superou todos os modelos que eles testaram antes.

Como parte do nosso esforço contínuo de parceria com especialistas externos, testes conjuntos de pré-implantação do novo modelo Claude 3.5 Sonnet foram conduzidos pelo US AI Safety Institute (US AISI) e pelo UK Safety Institute (UK AISI).

Também avaliamos o Claude 3.5 Sonnet atualizado para riscos catastróficos e descobrimos que o Padrão ASL-2, conforme descrito em nossa Política de Escalonamento Responsável , continua apropriado para este modelo.

Claude 3.5 Haiku: O estado da arte encontra acessibilidade e velocidade

 

Claude 3.5 Haiku é a próxima geração do nosso modelo mais rápido. Para uma velocidade semelhante à do Claude 3 Haiku, o Claude 3.5 Haiku melhora em todos os conjuntos de habilidades e supera até mesmo o Claude 3 Opus, o maior modelo da nossa geração anterior, em muitos benchmarks de inteligência. O Claude 3.5 Haiku é particularmente forte em tarefas de codificação. Por exemplo, ele pontua 40,6% no SWE-bench Verified, superando muitos agentes que usam modelos de última geração disponíveis publicamente — incluindo o Claude 3.5 Sonnet original e o GPT-4o.

Com baixa latência, melhor acompanhamento de instruções e uso mais preciso das ferramentas, o Claude 3.5 Haiku é adequado para produtos voltados ao usuário, tarefas especializadas de subagentes e geração de experiências personalizadas a partir de grandes volumes de dados, como histórico de compras, preços ou registros de estoque.

O Claude 3.5 Haiku será disponibilizado no final deste mês em nossa API própria, Amazon Bedrock, e no Vertex AI do Google Cloud, inicialmente como um modelo somente de texto e com entrada de imagem em seguida.

Ensinando Claude a navegar em computadores, de forma responsável

 

Com o uso do computador, estamos tentando algo fundamentalmente novo. Em vez de fazer ferramentas específicas para ajudar Claude a completar tarefas individuais, estamos ensinando a ele habilidades gerais de informática — permitindo que ele use uma ampla gama de ferramentas padrão e programas de software projetados para pessoas. Os desenvolvedores podem usar essa capacidade nascente para automatizar processos repetitivos, construir e testar software e conduzir tarefas abertas, como pesquisa .

Para tornar essas habilidades gerais possíveis, construímos uma API que permite que Claude perceba e interaja com interfaces de computador. Os desenvolvedores podem integrar essa API para permitir que Claude traduza instruções (por exemplo, "use dados do meu computador e on-line para preencher este formulário") em comandos de computador (por exemplo, verifique uma planilha; mova o cursor para abrir um navegador da web; navegue até as páginas da web relevantes; preencha um formulário com os dados dessas páginas; e assim por diante). No OSWorld , que avalia a capacidade dos modelos de IA de usar computadores como as pessoas fazem, o Claude 3.5 Sonnet obteve 14,9% na categoria somente captura de tela — notavelmente melhor do que a pontuação do próximo melhor sistema de IA de 7,8%. Quando recebeu mais etapas para concluir a tarefa, Claude obteve 22,0%.

Embora esperemos que essa capacidade melhore rapidamente nos próximos meses, a capacidade atual de Claude de usar computadores é imperfeita. Algumas ações que as pessoas realizam sem esforço — rolar, arrastar, dar zoom — atualmente apresentam desafios para Claude e encorajamos os desenvolvedores a começar a exploração com tarefas de baixo risco. Como o uso do computador pode fornecer um novo vetor para ameaças mais familiares, como spam, desinformação ou fraude, estamos adotando uma abordagem proativa para promover sua implantação segura. Desenvolvemos novos classificadores que podem identificar quando o uso do computador está sendo usado e se há danos ocorrendo. Você pode ler mais sobre o processo de pesquisa por trás dessa nova habilidade, juntamente com uma discussão mais aprofundada sobre medidas de segurança, em nossa postagem sobre o desenvolvimento do uso do computador .

Olhando para o futuro

 

Aprender com as implantações iniciais dessa tecnologia, que ainda está em seus estágios iniciais, nos ajudará a entender melhor o potencial e as implicações de sistemas de IA cada vez mais capazes.

Estamos animados para que você explore nossos novos modelos e o beta público de uso de computador — e convidamos você a compartilhar seu feedback conosco. Acreditamos que esses desenvolvimentos abrirão novas possibilidades para como você trabalha com Claude, e estamos ansiosos para ver o que você criará.

Share on


You may also like

This website uses cookies to improve your web experience.