Labs Digind

Benchmarks públicos para medir modelos económicos frente a los más usados.

Alternativas de bajo coste y open weights frente a modelos cerrados en coding: SWE-bench, LiveCodeBench, LiveSWEBench y Terminal-Bench.

0 modelos evaluados

0 métricas por modelo

0 métricas publicadas

0 tokens/s máx.

Actualizado —

01 · Modelos

Económicos vs. modelos más usados

Comparativa neutra de alternativas de bajo coste frente a modelos cerrados. Ordena por rendimiento, velocidad, coste y contexto.

02 · Comparativa

Barras y radar con métricas públicas. Próximamente: planes de coding por modelo.

general

radar · 4 benchmarks

Benchmarks

03 · Historial

Registro cronológico de altas y bajas. Cada entrada indica cuándo un modelo se sumó o se retiró.

04 · Metodología

Fuentes públicas: arquitectura, generación, edición IDE y DevOps. Solo indicadores objetivos para comparar cercanía al líder.

Issues reales de GitHub resueltos end-to-end. Estándar para lógica, arquitectura y refactor en repos completos.

Problemas frescos de LeetCode, AtCoder y CodeForces. Mide generación de código y razonamiento competitivo sin contaminación.

Proxy para asistentes de IDE: edición dirigida con prompt y archivo en contexto, modo agente.

Tareas difíciles de terminal: scripts, DevOps, administración y pipelines CLI en entornos realistas.