Claude da sus primeros pasos en el uso de computadoras

Anthropic presenta una versión beta que permite a su IA interactuar con interfaces de usuario, pero aún tiene mucho que aprender

oct 28, 2024

¿Te imaginas tener un asistente virtual que no solo pueda conversar contigo, sino que realmente pueda usar tu computadora como lo haría un humano? Parece ciencia ficción, ¿no? Pues Anthropic acaba de dar un paso en esa dirección al presentar una nueva característica en fase beta que permite a Claude, su asistente de IA, interactuar con interfaces de computadora.

¿Estás seguro que esa es la forma correcta de usar el mouse?

De la conversación a la acción

Hasta ahora, hemos interactuado con Claude y otros asistentes de IA principalmente a través de conversaciones. Les escribimos, nos responden, y así sucesivamente. Pero ahora, Claude está aprendiendo a hacer algo muy diferente: usar una computadora como lo haríamos nosotros.

Imagina que le pides que busque información sobre vuelos a Nueva York. En lugar de simplemente responderte "revisa tal o cual web", ahora puede:

Abrir un navegador
Escribir la dirección del sitio de búsqueda de vuelos
Hacer clic en los campos necesarios
Ingresar las fechas y destinos
Revisar las opciones disponibles
Presentarte un resumen de lo que encontró

¿Cómo toma decisiones Claude?

A diferencia de nosotros, que actuamos por intuición y experiencia, Claude tiene que analizar cada paso de manera metódica. Cuando ve una pantalla, debe:

Identificar todos los elementos (botones, campos de texto, menús)
Entender el contexto de cada elemento
Decidir qué acción tomar basándose en su objetivo
Planificar cómo ejecutar esa acción (mover el cursor, hacer clic, escribir)

Es como si tuvieras que explicarle a alguien por teléfono, paso a paso, cómo usar una aplicación que nunca ha visto. Solo que en este caso, Claude debe hacer tanto la explicación como la ejecución.

Nota de Germán: llámame viejo, pero yo prefiero hablar por teléfono que escribir mensajes de texto :P

Ejemplos del mundo real

Veamos algunas tareas que Claude podría tratar de hacer (sin olvidar que aún está en fase beta, muuuuuuuuy beta):

Organización de archivos:

Crear carpetas para diferentes categorías
Mover archivos según su tipo
Renombrar archivos siguiendo un formato específico

Búsqueda y recopilación de información:

Investigar precios de productos en diferentes sitios web
Compilar información en un documento
Guardar imágenes relevantes en una carpeta

Tareas administrativas básicas:

Llenar formularios con información proporcionada
Convertir documentos entre diferentes formatos
Organizar datos en hojas de cálculo

Lo más probable es que por el momento, estas tareas tampoco puedan ser completadas al 100% pot Claude, pero es súper interesante saber que la IA ya está yendo en esa dirección.

Los desafíos actuales

Aquí es donde las cosas se ponen interesantes (y a veces frustrantes). Mientras que para nosotros estas tareas son casi automáticas, Claude enfrenta varios retos:

Velocidad vs. Precisión:

Cada movimiento debe ser calculado
Necesita verificar constantemente si sus acciones tuvieron el efecto deseado
A veces debe intentar varias veces una misma acción

Navegación visual:

Le cuesta trabajo con interfaces que cambian dinámicamente
Puede confundirse con menús desplegables
El scroll puede ser particularmente desafiante

Comprensión del contexto:

No siempre entiende cuando algo no funciona como se esperaba
Puede tener dificultades con confirmaciones inesperadas o popups
A veces necesita instrucciones muy específicas para tareas que para nosotros serían obvias

Humanos vs. IA: Diferentes formas de usar una computadora

Me parece muy interesante comparar cómo usamos las computadoras los humanos y cómo lo hace Claude:

Humanos:

Actuamos por intuición y experiencia
Podemos adaptar rápidamente nuestras acciones si algo no funciona
Reconocemos patrones visuales instantáneamente
Tomamos decisiones basadas en contexto y experiencias previas

Claude:

Sigue un proceso metódico y planificado
Necesita verificar cada paso antes de continuar
Analiza cada elemento de la interfaz individualmente
Toma decisiones basadas en reglas y objetivos específicos

¿El futuro del diseño UX: interfaces para humanos y para IAs?

Aquí hay una reflexión: ahora mismo diseñamos interfaces pensando exclusivamente en usuarios humanos. Cuando creamos una aplicación o sitio web, consideramos versiones para escritorio, tablets y móviles. Pero... ¿qué pasará cuando las IAs se conviertan en usuarios frecuentes de estas aplicaciones?

Podríamos estar ante el nacimiento de un nuevo paradigma en el diseño de interfaces:

Interfaces para humanos:

Diseñadas para ser intuitivas y visualmente atractivas
Optimizadas para la percepción y comportamiento humano
Enfocadas en la experiencia y satisfacción del usuario

Interfaces para IAs:

Estructuradas de manera más sistemática y predecible
Con identificadores claros y consistentes para cada elemento
Posiblemente con "atajos" o APIs específicas para interacción por IA
Menos enfocadas en lo visual y más en la eficiencia funcional

¿Interfaces híbridas?

Quizás veamos aparecer interfaces "híbridas" que funcionen bien tanto para humanos como para IAs. Imagina una aplicación con un modo "AI-friendly" así como hoy tenemos la versión mobile de las diferentes aplicaciones que usamos. Imagina una diseño que se adapte a diferentes tipos de usuarios, ya sean humanos o IAs.

Además, vivimos en un mundo donde hay muchas interfases mal diseñadas, que son difíciles de usar incluso para los humanos (piensen en cualquier sitio web del estado). Eso implica que la IA no tendrá la misma facilidad para navegar todas las interfaces, me imagino que en el futuro este será uno de los factores para que las compañías empiecen a pensar en la IA como otro usuario de sus sistemas.

Un recordatorio importante

Por favor, no olvides que esta funcionalidad está en fase beta y tiene muuuuuchas limitaciones. Anthropic recomienda:

Usarla en entornos controlados
No dar acceso a información sensible
Siempre mantener supervisión humana
No permitir que la IA realice acciones que requieran consentimiento o tengan consecuencias significativas

Lo que viene

Esta tecnología es como un bebé dando sus primeros pasos. Sin embargo, representa un cambio fundamental en cómo las IAs podrían interactuar con el mundo digital.

Por ahora, si eres desarrollador o entusiasta de la tecnología, puedes empezar a experimentar con esta característica usando algo de código y el API de Anthropic. Para el resto de nosotros, es un recordatorio de que el futuro que alguna vez vimos en películas de ciencia ficción está cada vez más cerca.

¿Te imaginas cómo será cuando Claude y otras IAs "maduren" en su capacidad de usar computadoras? ¿Qué tareas te gustaría que tu asistente virtual pudiera hacer por ti? ¡Cuéntame en los comentarios!

Nos vemos pronto,

Germán

Discusión sobre este post

Por supuesto, sigue adelante.