KG4LLM

¿Qué estamos evaluando?

La siguiente tabla muestra la clasificación de LLMs en base a la evaluación de su factualidad (veracidad de su salida) teniendo en cuenta diferentes idiomas y dominios. La tabla sitúa los modelos numerados por puntuación y les otorga un IMF (índice medio de factualidad) calculado mediante FactScore de manera preferencial o Model Confidence* para todos los dominios e idiomas disponibles. Es posible modificar o alterar la tabla pulsando en el botón "Filtros" y marcando aquellos idiomas y/o dominios sobre los que se desee conocer la factualidad media de los modelos.

* Debido a la falta de datasets de verificación para castellano, catalán, euskera y gallego

Leaderboard

Dominios:

Salud

Seguros

General

Idiomas:

Inglés

Español

Catalán

Euskera

Gallego