首个 AI Kaggle 特级大师诞生,OpenAI 的 o1-preview 夺 7 金封王
2024-10-12 18:09:13 小编:天佳吕游
本站 10 月 12 日消息,科技媒体 The Decoder 昨日(10 月 11 日)发布博文,报道称 OpenAI 公司推出 MLE-bench 新基准,旨在评估 AI 智能体在开发机器学习解决方案方面的能力。
该基准包括 75 个 Kaggle 竞赛,旨在衡量自主 AI 系统在机器学习工程中的进展。这些竞赛涵盖了多个领域,包括自然语言处理、计算机视觉和信号处理等等。
本站注:Kaggle 是一个非常受欢迎的平台,专注于数据科学和机器学习的在线比赛。Kaggle 提供各种类型的比赛,包括数据预测、图像分类、自然语言处理等,适合不同技能水平的参与者。
在 Kaggle 的进阶系统中,“Novice”(新手)、“Contributor”(贡献者)、“Expert”(专家)、“Master”(大师)和 "Grandmaster"(特级大师)是不同的绩效层级,用于衡量和识别数据科学家在 Kaggle 平台上的技能水平和成就。
许多任务具有现实世界的应用,例如预测 COVID-19 mRNA 疫苗降解或解码古代卷轴等。
MLE-bench 专注于两个关键领域:
选择具有挑战性的任务:这些任务代表了当前机器学习的发展水平。
比较 AI 与人类的表现:通过对比,评估 AI 在特定任务中的能力。
OpenAI 在 MLE-bench 上测试了多个 AI 模型和智能体框架,使用 AIDE 框架的 o1-preview 模型表现最佳,在 16.9% 的比赛中至少获得了一枚铜牌,该结果超越了 Anthropic 的 Claude 3.5 Sonnet。
获得 5金即可评上 "Grandmaster" 特级大师,而 o1-preview 模型在MLE-bench测试中获得了 7枚金牌。
OpenAI 承认 MLE-bench 也有局限性,并未涵盖 AI 研究与开发的所有方面,主要集中在具有明确问题和简单评估指标的任务上。
MLE-bench 基准现已在 GitHub 上发布,OpenAI 希望通过这一工具,推动 AI 在机器学习领域的进一步发展。
- 猜你喜欢
- 相关手机游戏
-
黑色契约134.54M游戏下载
-
凯姆大冒险手机版240.61M游戏下载
-
魔神纪元67.90M游戏下载
-
保利桥3401.55M游戏下载
-
地府一日游游戏67.34M游戏下载
-
最后的幸存者幻想对决150.51M游戏下载
-
火柴人战争遗产3汉化版651.69M游戏下载
-
末土之下104.60M游戏下载
-
海绵宝宝泡泡爆破130.28M游戏下载
- 推荐手游攻略
- 首个 AI Kaggle 特级大师诞生,OpenAI 的 o1-preview 夺 7 金封王
- 永劫无间手游能用端游的账号吗
- 中国移动发布九天善智多模态基座大模型及 30+ 款自研行业大模型
- iQOO 13 手机低清真机图曝光:镜头模组周围新增一圈 RGB 灯带
- 中国移动 5G 基站超 230 万个,5G-A 商用城市超 330 个
- 还有这种好事?魔域口袋版签到就拿魔石!
- Akasa 推出 USB4 40Gbps 移动固态硬盘盒,内置 8000RPM 主动散热风扇
- 剑网3无界武学助手设置方法
- 《极乐迪斯科》团队打造,新作《XXX NIGHTSHIFT》侦探角色扮演游戏官宣
- 打印机不能打印图片是怎么回事 常见的5种原因及解决方法