Home Technology Anthropic quiere que su agente de inteligencia artificial controle su computadora

Anthropic quiere que su agente de inteligencia artificial controle su computadora

2
0
Anthropic quiere que su agente de inteligencia artificial controle su computadora
ab ab ab ab ab ab ab ab ab ab ab ab ab ab ab ab ab ab ab ab ab ab ab ab ab ab ab ab ab

Las demostraciones de agentes de IA pueden parecer sorprendentes, pero lograr que la tecnología funcione de manera confiable y sin errores molestos (o costosos) en la vida real puede ser un desafío. Los modelos actuales pueden responder preguntas y conversar con una habilidad casi humana, y son la columna vertebral de chatbots como ChatGPT de OpenAI y Gemini de Google. También pueden realizar tareas en computadoras cuando se les da un comando simple accediendo a la pantalla de la computadora, así como a dispositivos de entrada como un teclado y un panel táctil, o mediante interfaces de software de bajo nivel.

Anthropic dice que Claude supera a otros agentes de IA en varios puntos de referencia clave, entre ellos banco SWEque mide las habilidades de desarrollo de software de un agente, y OSWorldque mide la capacidad de un agente para utilizar un sistema operativo de computadora. Las afirmaciones aún deben ser verificadas de forma independiente. Anthropic dice que Claude realiza tareas en OSWorld correctamente el 14,9 por ciento del tiempo. Esto está muy por debajo de los humanos, que generalmente obtienen alrededor del 75 por ciento, pero considerablemente más alto que los mejores agentes actuales, incluido el GPT-4 de OpenAI, que tienen éxito aproximadamente el 7,7 por ciento de las veces.

Anthropic afirma que varias empresas ya están probando la versión agente de Claude. Esto incluye Canvaque lo utiliza para automatizar tareas de diseño y edición, y Repetirque utiliza el modelo para codificar tareas. Otros usuarios tempranos incluyen La empresa del navegador, asanasy Noción.

Prensa Ofirun investigador postdoctoral de la Universidad de Princeton que ayudó a desarrollar SWE-bench, dice que la IA agente tiende a carecer de la capacidad de planificar con mucha antelación y, a menudo, tiene dificultades para recuperarse de los errores. “Para demostrar que son útiles, debemos obtener un rendimiento sólido en puntos de referencia estrictos y realistas”, afirma, como la planificación fiable de una amplia gama de viajes para un usuario y la reserva de todos los billetes necesarios.

Kaplan señala que Claude ya puede solucionar algunos errores sorprendentemente bien. Cuando se enfrentó a un error de terminal al intentar iniciar un servidor web, por ejemplo, el modelo supo cómo revisar su comando para solucionarlo. También resultó que tenía que habilitar ventanas emergentes cuando se encontraba con un callejón sin salida al navegar por la web.

Muchas empresas de tecnología ahora están compitiendo para desarrollar agentes de inteligencia artificial en su búsqueda de participación y prominencia en el mercado. De hecho, puede que no pase mucho tiempo antes de que muchos usuarios tengan agentes a su alcance. Microsoft, que ha invertido más de 13 mil millones de dólares en OpenAI, dice que es agentes de prueba que pueden usar computadoras con Windows. Amazon, que ha invertido mucho en Anthropic, está Explorar cómo los agentes podrían recomendar y eventualmente comprar productos. para sus clientes.

Sonya Huang, socia de la firma de riesgo Sequoia que se enfoca en empresas de IA, dice que a pesar de todo el entusiasmo en torno a los agentes de IA, la mayoría de las empresas en realidad simplemente están cambiando el nombre de las herramientas impulsadas por IA. En declaraciones a WIRED antes de las noticias de Anthropic, dice que la tecnología funciona mejor actualmente cuando se aplica en dominios limitados, como el trabajo relacionado con la codificación. “Es necesario elegir espacios problemáticos en los que, si el modelo falla, esté bien”, afirma. “Esos son los espacios problemáticos donde surgirán empresas verdaderamente nativas de agentes”.

Un desafío clave con la IA agente es que los errores pueden ser mucho más problemáticos que una respuesta confusa de un chatbot. Anthropic ha impuesto ciertas restricciones sobre lo que Claude puede hacer; por ejemplo, limitando su capacidad de usar la tarjeta de crédito de una persona para comprar cosas.

Si los errores se pueden evitar lo suficientemente bien, dice Press de la Universidad de Princeton, los usuarios podrían aprender a ver la IA (y las computadoras) de una manera completamente nueva. “Estoy muy entusiasmado con esta nueva era”, dice.

Source link