gsjqwyl

帅气的我简直无法用语言描述！

文章5878 网址1243 书籍0 软件0 评论0

PubMedQA

PubMedQA 面向AI编程场景，主要提供生物医学研究问答数据集和模型得分排行榜等能力

0360

H2O EvalGPT

H2O EvalGPT 面向国外AI聊天对话场景，主要提供H2O.ai推出的基于Elo评级方法的大模型评估系统等能力

0130

LLMEval3

LLMEval3 面向大模型服务场景，主要提供由复旦大学NLP实验室推出的大模型评测基准等能力

0350

LMArena

LMArena 面向大模型服务场景，主要提供AI模型评估平台等能力

0450

HELM

HELM 面向大模型服务场景，主要提供斯坦福大学推出的大模型评测体系等能力

0340

MMBench

MMBench 面向大模型服务场景，主要提供全方位的多模态大模型能力评测体系等能力

0510

CMMLU

CMMLU 面向大模型服务场景，主要提供一个综合性的大模型中文评估基准等能力

0240

OpenCompass

OpenCompass 面向大模型服务场景，主要提供上海人工智能实验室推出的大模型开放评测体系等能力

0240

AGI-Eval

AGI-Eval 面向大模型服务场景，主要提供AI大模型评测社区等能力

0280

FlagEval

FlagEval 面向大模型服务场景，主要提供智源研究院推出的FlagEval（天秤）大模型评测平台等能力

0380

Open LLM Leaderboard

Open LLM Leaderboard

Open LLM Leaderboard 面向大模型服务场景，主要提供Hugging Face推出的开源大模型排行榜单等能力

0390

MMLU

MMLU 面向AI编程场景，主要提供大规模多任务语言理解基准等能力

0440