gsjqwyl

帅气的我简直无法用语言描述!
PubMedQA

PubMedQA

PubMedQA 面向AI编程场景,主要提供生物医学研究问答数据集和模型得分排行榜等能力
0360
H2O EvalGPT

H2O EvalGPT

H2O EvalGPT 面向国外AI聊天对话场景,主要提供H2O.ai推出的基于Elo评级方法的大模型评估系统等能力
0130
LLMEval3

LLMEval3

LLMEval3 面向大模型服务场景,主要提供由复旦大学NLP实验室推出的大模型评测基准等能力
0350
LMArena

LMArena

LMArena 面向大模型服务场景,主要提供AI模型评估平台等能力
0450
HELM

HELM

HELM 面向大模型服务场景,主要提供斯坦福大学推出的大模型评测体系等能力
0340
MMBench

MMBench

MMBench 面向大模型服务场景,主要提供全方位的多模态大模型能力评测体系等能力
0510
CMMLU

CMMLU

CMMLU 面向大模型服务场景,主要提供一个综合性的大模型中文评估基准等能力
0240
OpenCompass

OpenCompass

OpenCompass 面向大模型服务场景,主要提供上海人工智能实验室推出的大模型开放评测体系等能力
0240
AGI-Eval

AGI-Eval

AGI-Eval 面向大模型服务场景,主要提供AI大模型评测社区等能力
0280
FlagEval

FlagEval

FlagEval 面向大模型服务场景,主要提供智源研究院推出的FlagEval(天秤)大模型评测平台等能力
0380
Open LLM Leaderboard

Open LLM Leaderboard

Open LLM Leaderboard 面向大模型服务场景,主要提供Hugging Face推出的开源大模型排行榜单等能力
0390
MMLU

MMLU

MMLU 面向AI编程场景,主要提供大规模多任务语言理解基准等能力
0440