智东西编译 金碧辉编辑 程茜
智东西5月28日消息,据科技媒体The Decoder 5月26日报道,当天,谷歌正式发布开源大模型评测框架LMEval,支持对GPT-4o、Claude 3.7 Sonnet、Gemini 2.0 Flash、Llama-3.1-405B等主流模型进行多模态能力标准化评估。
LMEval基于LiteLLM框架(能让开发者通过统一API便捷调用GPT、Claude、Llama等上百款大模型,并支持流式响应、批量推理及成本监控等功能的开源框架)打通谷歌、OpenAI、Anthropic、Ollama和Hugging Face五大厂商API接口,首次实现文本、图像、代码三类任务的一站式评测,并通过增量评估技术减少80%重复测试算力消耗。
LMEval的源代码和示例笔记本已经在GitHub上公开,供广大开发者使用和研究。
地址:https://github.com/google/lmeval
一、跨平台互通,采用增量评估+多线程并行计算技术,测试效率提升5倍
LMEval基于LiteLLM框架,将谷歌、OpenAI、Anthropic、Ollama、Hugging Face的API接口标准化,开发者无需针对不同平台重写测试代码。
同时,科技媒体The Decoder援引谷歌官方说道,LMEval系统采用增量评估技术,配合多线程并行计算,能节省80%算力,原本8小时的测试流程可压缩至1.5小时。
在评估场景层面,LMEval突破了单一文本问答的局限,将图像理解、代码生成等场景纳入评测范畴,满足多领域对大模型能力评测的需求。
在题型方面,LMEval提供了是非判断、多选问答、开放式生成等多达12种题型,为全面评估模型在不同任务形式下的表现创造了条件。同时,LMEval模块化设计允许开发者依据自身研究或业务需求,灵活添加新的评估维度,增强了框架的扩展性与适应性。
在安全评估层面,LMEval新增的规避性回答检测功能能够识别模型在面对敏感问题时所采取的推诿策略,这对于评估模型在处理敏感信息时的可靠性意义重大。
▲Giskard的安全评分显示了不同的AI模型如何有效地规避潜在的有害内容。百分比越高,安全性就越高。(图源:谷歌)
在数据存储与隐私保护层面,LMEval将测试数据存储于自加密的SQLite数据库中,本地访问需密钥验证,有效阻断搜索引擎抓取,在数据使用过程中全方位保障数据安全与隐私。
二、评测成本直降90%,月之暗面已部署
据The Decoder报道,LMEval采用增量评估技术后,企业新增测试场景的运维成本降低90%。国内大模型创业公司月之暗面技术负责人王海明、刘征瀛在今年5月26日谷歌LMEval框架发布后的媒体沟通会上透露,该工具已应用于其内部流程优化,在未使用LMEval前,月之暗面针对新模型或新场景的评测往往需要数周时间来搭建测试环境、设计评测流程以及执行测试。
而引入LMEval后,原本复杂冗长的流程得以简化,现在仅需几天就能完成一轮全面评测,研发周期大幅缩短超两周。
LMEval配套的LMEvalboard可视化工具支持生成雷达图,能直观对比不同模型在各项能力上的表现短板。
开发者点击图表即可查看具体错误案例,还能并排对比不同模型对同一问题的响应差异,助力精准定位模型性能优劣,为模型的优化与改进提供有力依据
结语:谷歌开源LMEval框架,打通五大厂商API接口
谷歌开放的开源框架LMEval基于LiteLLM框架,打通谷歌、OpenAI、Anthropic、Ollama和Hugging FaceAPI的API接口,让开发者能在统一环境下评测不同来源模型。通过模块化设计,它可同时满足文本、图像、代码等多模态评估需求,提供12种题型,还能灵活添加新评估维度。而增量评估技术配合多线程并行计算,节省80%算力,使企业新增测试场景的运维成本降低90%,显著提升测试效率、降低测试成本。
谷歌推出的LMeval框架通过标准化和灵活性的结合,为研究人员和开发者提供了便利。在未来,随着AI技术的不断演进,LMeval框架或有可能成为行业内评测工作的标准,助力推动AI模型的持续发展与优化。
来源:The Decoder
《女女又爽❌又黄❌免费》,《w3u7903ejky2ywls》🌸✿极品白丝✿🌸白皙mba
“纲手被❌吸乳脱内内”
黑客家庭破解农村
……
05月31日
“我在开会他在下添的好爽视频和尚”年轻人回家过年最大的焦虑
↓↓↓
05月31日,林下经济促振兴 广西龙胜大山深处百合“香”,免费jk❌❌❌白丝乳,揉捏奶头撒娇呻吟舌吻,神里绫华等身枕头,甘雨裸体❌开腿羞羞网站,
05月31日,人民网评:城乡融合发展是中国式现代化的必然要求,91丝袜❤️国产在线观看,成人性色黄l片完整版迅雷影院,女澡堂洗澡㊙️网站,第79部分阅读15乱Lun
05月31日,多所高校向新疆、云南受灾学生开放灾后困难专项补助申请,美女裸露双奶头捆绑sm挠脚心,美女的秘密㊙️免费视频,❌❌⭕⭕按摩高潮,an invitation to 3d vision
05月31日|(乡村行·看振兴)竹林露天酒飘香 江西龙南酿出乡村振兴“好滋味”|同性女A片18🈲在线观看|女人被扒开腿狂躁3p免费|国产精品无码欧美日韩AV红粉|furryGay♂XXX视频网站
05月31日|俄总统新闻秘书:普京计划访问朝鲜|雏田裸露双奶头屁股无遮挡|爆❌喷水❌洗澡❌真人视频|日本裸体❌❌❌❌❌❌JAPPT|猛男互摸🐔巴
05月31日|《王者荣耀》官宣DAU超一亿,数字IP线下助益文化消费新模式|初音未来被❌羞羞视频|国产学生粉嫩无套内谢|色情媳与公与媳高清|小智❌沙奈朵18禁污污……
05月31日,吉林以旧换新政策促二手车交易量快速增长,芝柏吃鸡10个部位图片,芙宁娜疯狂❌️自慰小说,扒开老师❌狂揉❌动漫网站,3D免费强㢨app模拟器游戏
05月31日,辽宁辽阳兰河河道塌陷面积约500平方米 未造成人员伤亡,女同被❌到爽了玩具,啊⋯学长⋯轻点⋯奶头漫画,白丝美女后入高清无码,美女的隐私㊙️免费裸体视频
05月31日|“时间的容器”艺术展亮相法国吉美博物馆美国得克萨斯州超两百万人处于洪水警报之下|疼~好疼~进不去了男男歌词|火影❌吸乳羞羞网站漫画|兽游furry下载官网|重囗味sm群虐视频
05月31日,和谐共生丨构建人与自然和谐共生的地球家园 习近平阐明中国理念,雏田爆,人妻白嫩爽AV无码视频在线,女列车员的婬荡生活,刘玥被躁的嗷嗷叫
05月31日,重庆市侨办恭贺2024新春,动漫被c到爽🔞巨乳网站,打光屁股的丁字裤,私は赤ちゃんが好きです怎么读,傻叉夏景树在线阅读下拉式
05月31日,“中国经济拥有光明前景”(两会·读懂中国)在团结奋斗中不断实现人民对美好生活的向往,女人🍑和🐻露在外面直播小说,艾玛裸被视频网站,名器奶婬H肉承欲欢np动漫视频,国漫美女被❌到喷牛奶18禁
05月31日|马拉维副总统飞机失事遇难 中方:深切哀悼|320小视频让幸福更简单|分娩纪录片真人分娩|全程露脸63老太|91九色PORNY最新首页
05月31日|(巴黎奥运)赛事看点:中国拳击冲金 最小选手登场|娜美扒开腿做❌同人漫画|扒开🍑让老师🍌进去动漫|粉嫩小泬凹凸冒白浆|女同学求我让我她一下作文
05月31日|国务院关于《南宁市国土空间总体规划(2021—2035年)》的批复|玖辛奈被扒开腿坐做❌|国产做爰14XXXⅩ高潮电影|中国tickling挠脚心网站免费TK|acfan色情版app
水均益女儿从央视离职后宣布直播带货,中国国奥无缘巴黎奥运会|在闽毕业生求职忙 高校直播带岗多渠道拓就业|裸体杂技DⅤD|女学生婬荡呻吟扒开腿视频|91热爆TS国产人妖在线|美女让男人边亲边摸自己羞羞
监制:邓金木
策划:赖晗
主创:唐征宇 林箴贺 陈佛烘 颜亦阳 陈林韵
编辑:王家菁、段圣祺