La Universitat Politècnica de València (UPV) ha participado en el desarrollo de ADeLe (AI Evaluation with Demand Levels), una nueva metodología que permite anticipar si los grandes modelos de lenguaje de la inteligencia artificial serán capaces de completar con éxito una tarea que todavía no han ejecutado. El sistema, según destacan sus impulsores, alcanza una fiabilidad próxima al 90% y abre la puerta a una evaluación más precisa de las capacidades reales de estos modelos antes de su despliegue.
El trabajo ha sido desarrollado por personal investigador del Instituto Universitario Valenciano de Investigación en Inteligencia Artificial (VRAIN) de la UPV y ValgrAI, junto a especialistas de otras universidades y centros internacionales. Sus resultados ven la luz este miércoles en la revista Nature, en un estudio que plantea una vía distinta a las evaluaciones tradicionales, centradas hasta ahora en medir el comportamiento de la IA únicamente en pruebas ya realizadas.
La principal aportación de ADeLe es que no se limita a describir cómo responde un sistema en un examen concreto, sino que trata de explicar de antemano qué puede hacer, dónde están sus límites y en qué tipo de tareas podría fallar. Este enfoque, más cercano a una evaluación cognitiva, permitiría reducir errores antes de que los nuevos modelos lleguen a la industria, a servicios públicos o a entornos sensibles.
Una evaluación más útil para empresas y reguladores
El equipo investigador subraya que esta metodología responde a una necesidad creciente en un contexto de expansión acelerada de la inteligencia artificial. Empresas, auditores, responsables políticos y organismos reguladores reclaman herramientas más rigurosas, escalables y comparables para conocer con más detalle el alcance real de estos sistemas, también en procesos de supervisión y seguridad.
Según exponen los autores, buena parte de los sistemas actuales de evaluación no logra dar respuesta a un ecosistema cada vez más diverso y cambiante. ADeLe pretende corregir esa limitación al ofrecer no solo resultados de rendimiento, sino también capacidad explicativa y predictiva sobre el comportamiento de los modelos en contextos nuevos.
La metodología organiza el amplio abanico de tareas cognitivas en 18 dimensiones clave, entre ellas la atención, el razonamiento o el grado de singularidad de cada tarea. A partir de ahí, cada prueba puede valorarse según el nivel de exigencia que plantea en esas capacidades, lo que permite construir un perfil más detallado del modelo analizado.
Qué revela ADeLe sobre los modelos de IA
Al aplicar este sistema a distintas pruebas de rendimiento, el grupo de investigación ha identificado varias conclusiones relevantes. Una de ellas es que muchos test actuales no evalúan exactamente aquello para lo que fueron concebidos, ya que terminan midiendo capacidades distintas de las previstas inicialmente.
También concluyen que los modelos de IA presentan patrones diferenciados de fortalezas y debilidades en función de factores como su tamaño, su familia tecnológica o la metodología de razonamiento que emplean. Además, ADeLe permite anticipar con precisión si un sistema tendrá éxito o fracasará en una tarea inédita, algo especialmente valioso para evitar despliegues fallidos.
Otra de las ideas destacadas del estudio es que el debate sobre si la IA razona o no admite matices. Según sostienen los autores, parte de las discrepancias entre investigaciones anteriores se debe a que no todas las pruebas exigen el mismo nivel de dificultad: algunas requieren una resolución básica de problemas y otras reclaman lógica avanzada, abstracción o un conocimiento más profundo del dominio.
En ese análisis, los investigadores apuntan además que los llamados modelos de razonamiento muestran mejoras medibles frente a modelos más convencionales, no solo en campos como la lógica o las matemáticas, sino también en tareas vinculadas a la interpretación real de lo que pide el usuario.
Fernando Martínez-Plumed, investigador de VRAIN-UPV, explica que esta evaluación permite, por primera vez, anticipar con un porcentaje muy elevado de acierto si un modelo resolverá o no una tarea nueva antes de ser desplegado. A su juicio, esto puede ayudar a la industria a detectar errores con antelación y evitar el coste de lanzar sistemas que después no cumplen las expectativas.
En el estudio han participado, además de la UPV y ValgrAI, especialistas de la Universidad de Cambridge, Princeton, Carnegie Mellon, William & Mary, Microsoft Research y el Centro de Automática y Robótica (CAR, CSIC-UPM), entre otras instituciones.





