blog
未登录
登录后即可体验更多功能
登录
注册
找回密码
gsjqwyl
帅气的我简直无法用语言描述!
文章
5878
网址
1243
书籍
0
软件
0
评论
0
已发布
1243
PubMedQA
PubMedQA 面向AI编程场景,主要提供生物医学研究问答数据集和模型得分排行榜等能力
0
36
0
AI编程
H2O EvalGPT
H2O EvalGPT 面向国外AI聊天对话场景,主要提供H2O.ai推出的基于Elo评级方法的大模型评估系统等能力
0
13
0
国外AI
LLMEval3
LLMEval3 面向大模型服务场景,主要提供由复旦大学NLP实验室推出的大模型评测基准等能力
0
35
0
AI大模型
LMArena
LMArena 面向大模型服务场景,主要提供AI模型评估平台等能力
0
45
0
AI大模型
HELM
HELM 面向大模型服务场景,主要提供斯坦福大学推出的大模型评测体系等能力
0
34
0
AI大模型
MMBench
MMBench 面向大模型服务场景,主要提供全方位的多模态大模型能力评测体系等能力
0
51
0
AI大模型
CMMLU
CMMLU 面向大模型服务场景,主要提供一个综合性的大模型中文评估基准等能力
0
24
0
AI大模型
OpenCompass
OpenCompass 面向大模型服务场景,主要提供上海人工智能实验室推出的大模型开放评测体系等能力
0
24
0
AI大模型
AGI-Eval
AGI-Eval 面向大模型服务场景,主要提供AI大模型评测社区等能力
0
28
0
AI大模型
FlagEval
FlagEval 面向大模型服务场景,主要提供智源研究院推出的FlagEval(天秤)大模型评测平台等能力
0
38
0
AI大模型
Open LLM Leaderboard
Open LLM Leaderboard 面向大模型服务场景,主要提供Hugging Face推出的开源大模型排行榜单等能力
0
39
0
AI大模型
MMLU
MMLU 面向AI编程场景,主要提供大规模多任务语言理解基准等能力
0
44
0
AI编程
加载更多
网址
网址
文章
软件
书籍