AI模型评测

共 17 篇网址

AI模型评测通过准确的性能测试、对比分析和基准评估，帮助开发者和企业衡量不同AI模型的准确性、效率与应用效果，是选择和优化模型的重要依据。

CMMLU

ChatGPT Prompt Genius是一款免费且开源的浏览器扩展，旨在帮助用户发现、分享、导入并使用最佳的ChatGPT提示，同时支持本地保存聊天记录，提供多种主题自定义功能，提升ChatGPT的使用体验。

880.4K95.1K

AI提示指令 AI效率提升 # AI工具 # AI模型评测 # ChatGPT

ChatGPT Prompt Genius

ChatGPT Prompt Genius

CMMLU是一个专为中文语境设计的综合性评估基准，涵盖67个主题，旨在全面测试语言模型的知识储备和推理能力。

880.4K95.1K

AI提示指令 AI模型评测 # AI提示指令 # CMMLU # 中文评估基准

Chatbot Arena

Chatbot Arena是一个开放的社区驱动平台，用户通过匿名对战和投票，实时评估和比较大型语言模型（LLM）的性能。

880.5K95.1K

AI模型评测 # AI模型比较 # AI模型评测 # Chatbot Arena

Open LLM Leaderboard

Open LLM Leaderboard

Open LLM Leaderboard是由Hugging Face推出的开源大语言模型（LLM）评估平台，提供模型排名、性能评估和社区协作功能，助力开发者和研究者了解和比较不同LLM的表现。

880.7K95.1K

AI学习网站 AI模型评测 # AI模型比较 # AI模型评测 # Hugging Face

Stable Chat

Stable Chat是Stability AI最新推出的对话式AI助手，基于Stable Beluga大语言模型，旨在为研究人员和AI爱好者提供评估模型功能和安全性的研究平台。

880.4K95.1K

AI智能助手 AI模型评测 # AI对话工具 # AI模型评估 # AI研究平台

Evidently AI

Evidently AI是一款开源的AI质量协作平台，提供全面的评估、测试和监控工具，帮助团队确保AI系统的可靠性和性能。

880.4K95.1K

AI模型评测 AI训练模型 # AI可观测性 # AI训练模型 # AI质量评估

HELM

HELM（Holistic Evaluation of Language Models）是斯坦福大学推出的开源评估框架，旨在全面、透明地评估基础模型，包括大型语言模型和多模态模型。

880.4K95.1K

AI模型评测 # AI模型评测 # AI评测 # HELM

MMLU

MMLU（Massive Multitask Language Understanding）是由加州大学伯克利分校于2020年9月推出的基准测试，旨在评估大型语言模型在多领域的理解和推理能力。

880.4K95.1K

AI模型评测 # AI模型评测 # MMLU # 人工智能

FlagEval

FlagEval（天秤）是由智源研究院联合多所高校团队打造的开放评测平台，采用“能力-任务-指标”三维评测框架，提供全面、细致的大模型评测结果。

880.4K95.1K

AI模型评测 # AI模型评测 # AI评测平台 # FlagEval

OpenCompass

OpenCompass是由上海人工智能实验室推出的开源大模型评测体系，提供全面、高效的评测框架，支持大语言模型和多模态模型的一站式评测，并定期公布评测结果榜单。

880.4K95.1K

AI模型评测 # AI模型评测 # AI评测 # OpenCompass

MMBench

MMBench是由OpenCompass团队推出的多模态基准测试，旨在通过约3000道单项选择题，覆盖20项细粒度能力，全面评估视觉语言模型的综合表现。

880.5K95.1K

AI模型评测 # AI模型评测 # MMBench # OpenCompass

PublicPrompts

Public Prompts是一个免费开放的平台，提供丰富多样的高质量AI提示词，助力用户在AI艺术创作中激发灵感，提升创作效率。

880.5K95.1K

AI学习网站 AI提示指令 # AI提示指令 # AI提示词 # AI模型库

PubMedQA

PubMedQA是一个专为生物医学领域设计的问答数据集，包含1,000个专家标注、61,200个未标注和211,300个人工生成的问答实例，旨在提升AI模型在医学研究问答任务中的表现。

880.4K95.1K

AI学习网站 AI模型评测 # AI数据集 # AI模型评测 # PubMedQA

SuperCLUE

SuperCLUE是由CLUE学术社区推出的中文通用大模型综合性评测基准，旨在从基础能力、专业能力和中文特性能力三个维度全面评估模型表现。

880.5K95.1K

AI模型评测 # AI模型基准 # AI模型排行榜 # AI模型评测

C-Eval

C-Eval是由上海交通大学、清华大学和爱丁堡大学联合推出的中文大语言模型评估套件，包含13948道多项选择题，覆盖52个学科和四个难度级别，旨在全面评测模型的中文理解能力。

880.4K95.1K

AI模型评测 # AI模型评测 # C-Eval # 中文大语言模型评估

AGI-Eval

AGI-Eval是由多所知名高校和机构联合打造的AI大模型评测社区，提供公正、可信、科学、全面的评测生态，旨在评估基础模型在人类认知和问题解决任务中的通用能力。

880.4K95.1K

AI模型评测 # AGI-Eval # AI模型评测 # AI评测

H2O EvalGPT

H2O EvalGPT是H2O.ai推出的开放工具，专为评估和比较大型语言模型（LLM）设计，提供全面的性能排行榜，助力用户选择最适合其项目需求的模型。

880.4K95.1K

AI模型评测 # A/B测试 # AI工具 # AI模型评估