El último examen de la humanidad quiere que sus preguntas difíciles desconcerten a la IA

Los puntos de referencia están luchando por mantenerse al día con las capacidades avanzadas del modelo de IA y el proyecto Humanity’s Last Exam quiere su ayuda para solucionar este problema.

El proyecto es una colaboración entre el Centro para la Seguridad de la IA (CAIS) y la empresa de datos de IA Scale AI. El proyecto tiene como objetivo medir qué tan cerca estamos de lograr sistemas de IA de nivel experto, algo que los puntos de referencia existentes no son capaces de hacer.

OpenAI y CAIS desarrollaron el popular punto de referencia MMLU (Massive Multitask Language Understanding) en 2021. En aquel entonces, dice CAIS, “los sistemas de IA no funcionaron mejor que los aleatorios”.

El impresionante rendimiento del modelo o1 de OpenAI ha “destruido los puntos de referencia de razonamiento más populares”, según Dan Hendrycks, director ejecutivo de CAIS.

Rendimiento o1 MMLU de OpenAI en comparación con modelos anteriores. Fuente: OpenAI

Una vez que los modelos de IA alcancen el 100% en la MMLU, ¿cómo los mediremos? CAIS dice: “Las pruebas existentes ahora se han vuelto demasiado fáciles y ya no podemos seguir bien los desarrollos de la IA, o qué tan lejos están de alcanzar el nivel de expertos”.

Cuando vea el salto en las puntuaciones de referencia que o1 sumó a las ya impresionantes cifras de GPT-4o, no pasará mucho tiempo antes de que un modelo de IA supere la MMLU.

Esto es objetivamente cierto. pic.twitter.com/gorahh86ee
– Ethan Mollick (@emollick) 17 de septiembre de 2024

El último examen de la humanidad pide a las personas que envíen preguntas que realmente lo sorprenderían si un modelo de inteligencia artificial entregara la respuesta correcta. Quieren preguntas de examen de nivel de doctorado, no del tipo ‘cuántas R hay en fresa’ que hacen tropezar a algunos modelos.

LEER Empresas tecnológicas de todo el mundo se comprometen a adoptar un nuevo conjunto de normas voluntarias

Scale explicó que “a medida que las pruebas existentes se vuelven demasiado fáciles, perdemos la capacidad de distinguir entre los sistemas de inteligencia artificial que pueden aprobar los exámenes de pregrado y aquellos que realmente pueden contribuir a la investigación de vanguardia y la resolución de problemas”.

Si tiene una pregunta original que podría obstaculizar un modelo avanzado de IA, entonces podría agregar su nombre como coautor del artículo del proyecto y compartir un fondo común de $500,000 que se otorgará a las mejores preguntas.

Para darle una idea del nivel al que apunta el proyecto, Scale explicó que “si un estudiante universitario seleccionado al azar puede entender lo que se le pregunta, probablemente sea demasiado fácil para los LLM de hoy y de mañana”.

Existen algunas restricciones interesantes sobre los tipos de preguntas que se pueden enviar. No quieren nada relacionado con armas químicas, biológicas, radiológicas, nucleares o ciberarmas utilizadas para atacar infraestructuras críticas.

Si cree que tiene una pregunta que cumple con los requisitos, puede enviarla aquí.

El último examen de la humanidad quiere que sus preguntas difíciles desconcerten a la IA

Últimas noticias

El dominio de las CPU para juegos de AMD podría estar amenazado, según Qualcomm

La APT Gelsemium china apunta a los sistemas Linux con la nueva puerta trasera WolfsBane

Vivo emite una advertencia urgente para los usuarios de teléfonos inteligentes que cometen este GRAN error

Drasi de Microsoft: un nuevo enfoque para rastrear cambios rápidos en los datos

Más de 2000 dispositivos de Palo Alto Networks pirateados en una campaña de ataque en curso

Selección del editor

Consigue una cámara web Logitech de 1080p por menos de $25, si actúas rápido

Lanzamiento de Decryptor gratuito para víctimas de ShrinkLocker Ransomware basado en BitLocker

Consigue Diablo 4 y Vessel of Hatred gratis, gracias a MSI

Los teléfonos JioBharat V3 y V4 se lanzaron a un precio inicial de 1.099 €: consulte funciones, disponibilidad y más

Síguenos en las redes sociales