
Anthropic a annoncé deux De nouveaux modèles, Claude 4 Opus et Claude Sonnet 4, lors de sa première conférence de développeur à San Francisco jeudi. La paire sera immédiatement disponible pour payer les abonnés de Claude.
Les nouveaux modèles, qui sautent la convention de dénomination de 3,7 à 4, ont un certain nombre de forces, y compris leur capacité à raisonner, à planifier et à se souvenir du contexte des conversations sur de longues périodes, selon la société. Claude 4 Opus est également encore mieux pour jouer à Pokémon que son prédécesseur.
«Il a pu travailler sur l’agence sur Pokémon pendant 24 heures», explique le directeur des produits d’Anthropic, Mike Krieger, dans une interview avec Wired. Auparavant, le plus long que le modèle pouvait jouer n’était que de 45 minutes, a ajouté un porte-parole de l’entreprise.
Il y a quelques mois, Anthropic a lancé un flux Twitch appelé « Claude Plays Pokémon » qui présente les capacités de Claude 3.7 Sonnet à Pokémon Red Live. La démo est destinée à montrer comment Claude est en mesure d’analyser le jeu et de prendre des décisions étape par étape, avec une direction minimale.
L’avance derrière la recherche Pokémon est David Hershey, membre du personnel technique d’Anthropic. Dans une interview avec Wired, Hershey dit qu’il a choisi Pokémon Red parce que c’est «un terrain de jeu simple», ce qui signifie que le jeu est au tour par tour et ne nécessite pas de réactions en temps réel, avec lesquelles les modèles actuels d’Anthropic ont du mal. C’était aussi le premier jeu vidéo qu’il ait jamais joué, sur le Game Boy original, après l’avoir obtenu pour Noël en 1997. « Il a une place assez spéciale dans mon cœur », dit Hershey.
L’objectif primordial de Hershey avec cette recherche était d’étudier comment Claude pouvait être utilisé comme agent – travaillant indépendamment pour effectuer des tâches complexes au nom d’un utilisateur. Bien qu’il ne soit pas difficile de savoir ce que Claude antérieure a à propos de Pokémon à partir de ses données de formation, son invite de système est minime par conception: vous êtes Claude, vous jouez à Pokémon, voici les outils dont vous avez et vous pouvez appuyer sur les boutons à l’écran.
« Au fil du temps, j’ai traversé et supprimé toutes les choses spécifiques à Pokémon que je peux juste parce que je pense qu’il est vraiment intéressant de voir à quel point le modèle peut comprendre seul », dit Hershey, ajoutant qu’il espère construire un jeu que Claude n’a jamais vu auparavant afin de vraiment tester ses limites.
Lorsque Claude 3.7 Sonnet a joué le jeu, il a rencontré certains défis: il a dépensé « des dizaines d’heures«Coincé dans une ville et a eu du mal à identifier les personnages non-joueurs, ce qui a radicalement ralenti ses progrès dans le jeu. Avec Claude 4 Opus, Hershey a remarqué une amélioration de la mémoire à long terme de Claude et des capacités de planification lorsqu’il a regardé de l’avenir, il y a passé une épreuve à améliorer ses compétences avant de continuer à jouer. rétroaction immédiate, montre un nouveau niveau de cohérence, ce qui signifie que le modèle a une meilleure capacité de rester sur la bonne voie.
«C’est l’une de mes façons préférées de connaître un modèle. Comme, c’est ainsi que je comprends quelles sont ses forces, quelles sont ses faiblesses», explique Hershey. «C’est ma façon de simplement comprendre ce nouveau modèle que nous sommes sur le point de sortir et comment travailler avec.»
Tout le monde veut un agent
La recherche sur les Pokémon d’Anthropic est une nouvelle approche pour résoudre un problème préexistant – comment comprenons-nous quelles décisions une IA prend lors de l’approche des tâches complexes et le pousse dans la bonne direction?
La réponse à cette question fait partie intégrante de faire progresser les agents de l’IA très médiatisés de l’industrie – AI qui peuvent s’attaquer aux tâches complexes avec une indépendance relative. Dans Pokémon, il est important que le modèle ne perde pas de contexte ou n’oublie pas la tâche à accomplir. Cela s’applique également aux agents de l’IA invités à automatiser un flux de travail, même un qui prend des centaines d’heures.
(TagStotranslate) Intelligence artificielle (T) Modèles de chatbots anthropiques (T) (T)