Offentlig eval

Politikkradar benchmark

Modeller måles på representative politiske spørsmål, kildebruk, norsk svarform og stabil gjennomføring. Bare aggregerte resultater vises offentlig.

Laster kombinasjoner