Bsports必一体育社区服务跨平台的众模态智能体基准测试 CRAB 由 CAMEL AI 社区主导,由来自牛津、斯坦福、哈佛、KAUST、Ei ★g◁○en t AI 等 机构的琢△ ◁…△磨职员互助○ 斥地。CAMEL AI 社区斥地的 CAMEL■ 框架是…最早基于大道话模子的众智能体开源项目,于是社区成员众 为正在智能体范围有厚实科○研和实验体会的琢磨者和工程师。
AI 智能○体(■Agent ○)是当○下大▽型道话模子社区★中最为吸引人的琢磨目标之一,用户只须要提出己方的需求,智能体框 架□便可 能更改众个 L○LMs 并救援众智能体(Multi○ -agents)以互助或角逐的形式来结束用户给定的职业。
目前智能体已越来越□众地与大型众 模态模子 ▽(…MLM) 相联合,救援正在…各式○操作体系( 包罗网页、桌面 电脑和智好手机) 的图形用 户界面( GU■I)○ 境况中施行 职业。可是目前针对这种★智能体本能评估的基准(benchmarks) 照旧存正在许众限定性,比方构修职 业和■ 测试境况的丰富性,评议目标的简单性等。
针对这些题目,本文提出了○■一△个全新的跨= 境况智能体=□基 准 ◁测试框架○ CRA△ B。CRAB 采…用了 一种基于图的细粒度评估手段,并供应了高效的 职○业和评估器构修用具。本文的琢 磨团队还基于 CRAB 框架斥地了一个跨平台的测试数据集 CRAB Bench mark-v0社区任职,个中涵盖了可能正在 PC 和智好手机境况中施行的 100 个职○业,个中既包蕴古板的单平台职业,还包蕴 ○了务必同时=操作众个摆设技能 结束的丰富跨平台职…业。
作家拣选了目今较为时髦的四个众模△态模子举行了开端实行家装设计智能家居的10个系统房屋Bsports必一体育维修。,实行结果证据,运用 GP T-4o 动作推理★ 引擎 的单智能 体★构造具有最高的测试 点结▽△束…○率 35。26%。
动 作全○ 新 的智能体评估基=准框架,CRAB(Cross-environment Agent Benc hmark)首要 用于评=◁估基于众模态道话模子(MLMs)的智能体正在跨境况职业中的显露。CRAB 可能 模□仿可靠宇宙中人类用户同时运用众个摆设结束丰富=职业的场景,如 Demo 所示,CRAB 可能用来评估智能体同时使用一个 Ubuntu 桌面体系和一个 Andro i○d 手机体 系结束发送音讯的进程。
设思一下,假使智 能体具备★依照人类指令同时切确操作电脑和手 △机的 本事,许众繁杂的软 件操△作就 可能由智能体来结束,从而抬高集体的劳动结果。为了杀青这个标的,咱们 须要为…智能体构修越发全部和可靠○的跨▽平台测=试境况,希奇 是=须要救援同时操作众个摆设而且能供应足够的评估反 应机制。本文 的■ CRAB 框架实验○处 理 以下几个现实 题○目?
跨境况职业评估:现有的基准测○试凡是只合怀简=单境况 (如网 页、Andr★oid 或桌面操作体系)[1][2][3][4],而鄙夷了○可靠宇宙中跨摆设互 助场景的丰富★性。CRAB 框架救援将■一个摆设或■行使的交互封装为一个境况,通过对众境况职业的救援,也更靠近现实行使场景< strong■>社区任职。
细粒度评估手段:古板的评▽估○手○段要么只合怀最终标○的的 结束情景(标…的导向),要么端庄比对操作轨迹(轨迹导向)[ 1][2][■3]。这两种手段都存正在限定性,无法全部反响智能体的显露。CR○A B ○提出了△ 基于图的 ■○ 评…★估 手段,既能供应细粒度的评估目标,又能顺应众种有用的职业结束旅途
职业构修丰富性:跟着职业丰富度的添加,手动构= 修○职 业★和评估 器 变得越来越◁▽ …◁ 清贫。CR AB○ ○提出了一□种基于子职■业组合的手段,简化了跨境况职业的构修进程。
智能体体系构造评估:本文还 ○讨 ○论了差别智能▽体体系构造 (单智能体、基于成效分工的众智能体、基于境 况分工 的众智能 体)对○ 职 业结束功 效的影。