老北鼻AI工具箱
  • 首页
  • 提交AI工具
      • 未登录
        登录后即可体验更多功能
      未登录
      登录后即可体验更多功能

      AI模型评测

      共 17 篇网址
      AI模型评测通过准确的性能测试、对比分析和基准评估,帮助开发者和企业衡量不同AI模型的准确性、效率与应用效果,是选择和优化模型的重要依据。
      2025前收录AI内容检测AI写作工具AI办公工具AI图像工具AI学习网站AI开发平台AI提示指令AI搜索引擎AI智能体AI智能助手AI模型评测AI法律助手AI编程工具AI视频工具AI训练模型AI设计工具AI语言翻译AI音频工具AI工具严选AI推荐
      排序
      发布浏览
      CMMLU

      CMMLU

      ChatGPT Prompt Genius是一款免费且开源的浏览器扩展,旨在帮助用户发现、分享、导入并使用最佳的ChatGPT提示,同时支持本地保存聊天记录,提供多种主题自定义功能,提升ChatGPT的使用体验。
      880.2K95.1K
      AI提示指令AI效率提升# AI工具# AI模型评测# ChatGPT
      ChatGPT Prompt Genius

      ChatGPT Prompt Genius

      CMMLU是一个专为中文语境设计的综合性评估基准,涵盖67个主题,旨在全面测试语言模型的知识储备和推理能力。
      880.2K95.1K
      AI提示指令AI模型评测# AI提示指令# CMMLU# 中文评估基准
      Chatbot Arena

      Chatbot Arena

      Chatbot Arena是一个开放的社区驱动平台,用户通过匿名对战和投票,实时评估和比较大型语言模型(LLM)的性能。
      880.2K95.1K
      AI模型评测# AI模型比较# AI模型评测# Chatbot Arena
      Open LLM Leaderboard

      Open LLM Leaderboard

      Open LLM Leaderboard是由Hugging Face推出的开源大语言模型(LLM)评估平台,提供模型排名、性能评估和社区协作功能,助力开发者和研究者了解和比较不同LLM的表现。
      880.2K95.1K
      AI学习网站AI模型评测# AI模型比较# AI模型评测# Hugging Face
      Stable Chat

      Stable Chat

      Stable Chat是Stability AI最新推出的对话式AI助手,基于Stable Beluga大语言模型,旨在为研究人员和AI爱好者提供评估模型功能和安全性的研究平台。
      880.2K95.1K
      AI智能助手AI模型评测# AI对话工具# AI模型评估# AI研究平台
      Evidently AI

      Evidently AI

      Evidently AI是一款开源的AI质量协作平台,提供全面的评估、测试和监控工具,帮助团队确保AI系统的可靠性和性能。
      880.2K95.1K
      AI模型评测AI训练模型# AI可观测性# AI训练模型# AI质量评估
      HELM

      HELM

      HELM(Holistic Evaluation of Language Models)是斯坦福大学推出的开源评估框架,旨在全面、透明地评估基础模型,包括大型语言模型和多模态模型。
      880.2K95.1K
      AI模型评测# AI模型评测# AI评测# HELM
      MMLU

      MMLU

      MMLU(Massive Multitask Language Understanding)是由加州大学伯克利分校于2020年9月推出的基准测试,旨在评估大型语言模型在多领域的理解和推理能力。
      880.2K95.1K
      AI模型评测# AI模型评测# MMLU# 人工智能
      FlagEval

      FlagEval

      FlagEval(天秤)是由智源研究院联合多所高校团队打造的开放评测平台,采用“能力-任务-指标”三维评测框架,提供全面、细致的大模型评测结果。
      880.2K95.1K
      AI模型评测# AI模型评测# AI评测平台# FlagEval
      OpenCompass

      OpenCompass

      OpenCompass是由上海人工智能实验室推出的开源大模型评测体系,提供全面、高效的评测框架,支持大语言模型和多模态模型的一站式评测,并定期公布评测结果榜单。
      880.2K95.1K
      AI模型评测# AI模型评测# AI评测# OpenCompass
      MMBench

      MMBench

      MMBench是由OpenCompass团队推出的多模态基准测试,旨在通过约3000道单项选择题,覆盖20项细粒度能力,全面评估视觉语言模型的综合表现。
      880.2K95.1K
      AI模型评测# AI模型评测# MMBench# OpenCompass
      PublicPrompts

      PublicPrompts

      Public Prompts是一个免费开放的平台,提供丰富多样的高质量AI提示词,助力用户在AI艺术创作中激发灵感,提升创作效率。
      880.2K95.1K
      AI学习网站AI提示指令# AI提示指令# AI提示词# AI模型库
      PubMedQA

      PubMedQA

      PubMedQA是一个专为生物医学领域设计的问答数据集,包含1,000个专家标注、61,200个未标注和211,300个人工生成的问答实例,旨在提升AI模型在医学研究问答任务中的表现。
      880.2K95.1K
      AI学习网站AI模型评测# AI数据集# AI模型评测# PubMedQA
      SuperCLUE

      SuperCLUE

      SuperCLUE是由CLUE学术社区推出的中文通用大模型综合性评测基准,旨在从基础能力、专业能力和中文特性能力三个维度全面评估模型表现。
      880.2K95.1K
      AI模型评测# AI模型基准# AI模型排行榜# AI模型评测
      C-Eval

      C-Eval

      C-Eval是由上海交通大学、清华大学和爱丁堡大学联合推出的中文大语言模型评估套件,包含13948道多项选择题,覆盖52个学科和四个难度级别,旨在全面评测模型的中文理解能力。
      880.2K95.1K
      AI模型评测# AI模型评测# C-Eval# 中文大语言模型评估
      AGI-Eval

      AGI-Eval

      AGI-Eval是由多所知名高校和机构联合打造的AI大模型评测社区,提供公正、可信、科学、全面的评测生态,旨在评估基础模型在人类认知和问题解决任务中的通用能力。
      880.2K95.1K
      AI模型评测# AGI-Eval# AI模型评测# AI评测
      H2O EvalGPT

      H2O EvalGPT

      H2O EvalGPT是H2O.ai推出的开放工具,专为评估和比较大型语言模型(LLM)设计,提供全面的性能排行榜,助力用户选择最适合其项目需求的模型。
      880.2K95.1K
      AI模型评测# A/B测试# AI工具# AI模型评估
      没有了
      老北鼻AI工具箱
      老北鼻AI工具箱(LBBAI.com)是一个追踪AI工具的智能导航平台,精选国内外高质量AI应用,帮助开发者、内容创作者与企业用户高效发现合适工具。我们2025年5月正式推出首个智能排名系统 LBBAI 1.0,通过多维度推荐算法,让真正有价值的AI工具优先被发现,解决“工具太多选不过来”的难题,让每一次探索 AI 的旅程从正确的工具开始。

      友链申请 免责声明 关于我们 AI文章 网站地图 标签大全 LBBAI白皮书

      Copyright © 2025 老北鼻AI工具箱 备案号:黔ICP备2023001918号-6  贵公网安备 52010202003518号 
      反馈
      让我们一起共建文明社区!您的反馈至关重要!
      网址
      网址文章软件书籍