Laboratorio I+D ·

El laboratorio de inteligencia artificial de Digind.

Mide, compara y publica el rendimiento de los modelos de IA más avanzados aplicados al desarrollo de software. Datos reales en Cursor, Kilo Code, OpenCode y más.

0 modelos evaluados
0 métricas por modelo
0 actualizaciones
0 tokens/s máx.
Modelos monitoreados

El top tier del código agéntico

Siete modelos, una sola fuente de verdad. La tabla se reordena según el filtro que elijas.

Comparativa

Siete modelos, un vistazo

Barras horizontales, radar por modelo y tabla cruzada con benchmarks reales (SWE-bench, Terminal-Bench, coste y contexto).

Ranking comparativo

general

Huella de cada modelo

radar · 4 benchmarks
Metodología

Cómo medimos a los modelos

Nada de preguntas de opción múltiple. Cuatro benchmarks públicos que cubren arquitectura, generación impulsiva, edición en IDE y DevOps en terminal.

SWE-bench (Verified & Live)

Issues reales de GitHub resueltos end-to-end. El estándar de oro para lógica, arquitectura y refactor en repos completos.

LiveCodeBench (LCB)

Problemas frescos de LeetCode, AtCoder y CodeForces. Mide generación de código impulsiva, sintaxis y razonamiento competitivo sin contaminación.

LiveSWEBench · Targeted Editing

Proxy para asistentes de IDE (Cursor, Kilo Code, Copilot): edición dirigida con prompt y archivo en contexto, modo agente.

Terminal-Bench Hard

Tareas difíciles de terminal: scripts, DevOps, administración de sistemas y pipelines CLI en entornos realistas.