El laboratorio de inteligencia artificial de Digind.
Mide, compara y publica el rendimiento de los modelos de IA más avanzados aplicados al desarrollo de software. Datos reales en Cursor, Kilo Code, OpenCode y más.
El top tier del código agéntico
Siete modelos, una sola fuente de verdad. La tabla se reordena según el filtro que elijas.
Siete modelos, un vistazo
Barras horizontales, radar por modelo y tabla cruzada con benchmarks reales (SWE-bench, Terminal-Bench, coste y contexto).
Huella de cada modelo
radar · 4 benchmarksComparativa cruzada
Cómo medimos a los modelos
Nada de preguntas de opción múltiple. Cuatro benchmarks públicos que cubren arquitectura, generación impulsiva, edición en IDE y DevOps en terminal.
SWE-bench (Verified & Live)
Issues reales de GitHub resueltos end-to-end. El estándar de oro para lógica, arquitectura y refactor en repos completos.
LiveCodeBench (LCB)
Problemas frescos de LeetCode, AtCoder y CodeForces. Mide generación de código impulsiva, sintaxis y razonamiento competitivo sin contaminación.
LiveSWEBench · Targeted Editing
Proxy para asistentes de IDE (Cursor, Kilo Code, Copilot): edición dirigida con prompt y archivo en contexto, modo agente.
Terminal-Bench Hard
Tareas difíciles de terminal: scripts, DevOps, administración de sistemas y pipelines CLI en entornos realistas.