1. SuperCLUE 中文大模型测评基准
SuperCLUE 是国内权威的通用大模型综合性测评基准,专注于中文语言理解评测。该平台提供全面的中文大模型能力评测,定期更新排行榜,包括对包括 OpenAI、深度求索、商汤等多家机构的大模型进行评测。SuperCLUE 的评测维度涵盖了分类能力、信息抽取、阅读理解等多个方面,为中文大模型的发展提供了重要的参考依据。
2. Chatbot Arena
Chatbot Arena 是由 LMSYS Org 推出的大模型性能测试平台,集成了 190 多种模型。该榜单采用匿名方式将大模型两两组队,交给用户进行盲测,是全球顶级大模型的重要竞技场。Chatbot Arena 的评测方式独特,能够更直观地展示大模型在对话场景下的表现。
3. chinese-llm-benchmark
chinese-llm-benchmark 是一个囊括了 213 个大模型的评测平台,覆盖了 GPT-4o、o3-mini、谷歌 Gemini、Claude 3.5 等商用模型和各种开源大模型。该平台支持多维度能力评测,包括分类能力、信息抽取、阅读理解等,为用户提供了全面的大模型评测信息。
4. OpenCompass 司南
OpenCompass 司南 提供评测榜单,是查看大模型表现的重要平台之一。该平台评测了包括 GPT-4、LaMDA、GPT-3 等多个知名大模型,并提供了详细的评测结果和分析。
5. AGI-Eval 评测社区
AGI-Eval 评测社区 专注于评估大模型通用人工智能能力的平台。该社区汇集了众多国内外专家,共同研究和探讨大模型的评测方法和标准,为推动大模型技术的发展提供了有力支持。
6. AI工具集
AI工具集 提供人工智能大模型 LLM 评估基准、排行榜和数据集,帮助用户查看各大主流开源和非公开大模型的评测得分。该平台涵盖了丰富的评测维度,为用户提供了便捷的评测工具。
7. AIease
AIease 提供全球 LLM 大模型综合排名,包括 GPT-4 系列、谷歌 Gemini 系列、Claude 3 系列以及多个国产模型。该平台收集了全球各大评测平台的评测结果,为用户提供了一个全面的大模型排名。
8. AICPB.com (AI产品榜)
AICPB.com (AI产品榜) 是 AI 领域的 AI 排行榜官网,提供 AI 产品排名。该平台涵盖了人工智能领域的各个细分领域,为用户提供了全面的 AI 产品评测信息。
总结
以上 8 大权威模型评测机构各具特色,为用户提供了全面、客观的大模型评测信息。在选购大模型时,用户可以根据自己的需求,参考这些评测机构的评测结果,选择最适合自己的模型。