威廉希尔WilliamHill·足球(中国)体育官方网站
搜索 猫眼电影 融媒体矩阵
  • 山东手机报

  • 猫眼电影

  • 大众网官方微信

  • 大众网官方微博

  • 抖音

  • 人民号

  • 全国党媒平台

  • 央视频

  • 百家号

  • 快手

  • 头条号

  • 哔哩哔哩

首页 >新闻 >社会新闻

多模态检索大升级!智源三大SOTA模型,代码、图文理解能力拉满

2025-06-01 00:38:20
来源:

猫眼电影

作者:

丁万明

手机查看

  猫眼电影记者 尤金-奥曼迪 报道w3u7903ejky2ywls

新智元报道

编辑:Aeneas 犀牛

【新智元导读】就在刚刚,智源研究员联合多所高校开放三款向量模型,以大优势登顶多项测试基准。其中,BGE-Code-v1直接击穿代码检索天花板,百万行级代码库再也不用怕了!

检索增强技术在代码及多模态场景中的发挥着重要作用,而向量模型是检索增强体系中的重要组成部分。

针对这一需求,近日,智源研究院联合多所高校研发了三款向量模型,包括代码向量模型BGE-Code-v1,多模态向量模型BGE-VL-v1.5以及视觉化文档向量模型BGE-VL-Screenshot。

这些模型取得了代码及多模态检索的最佳效果,并以较大优势登顶CoIR、Code-RAG、MMEB、MVRB等领域内主要测试基准。

BGE自2023年8月发布以来,已成为中国首个登顶Hugging Face榜首的国产AI模型以及2023年所有发布模型的全球下载量冠军。

目前,BGE-Code-v1、BGE-VL-v1.5、BGE-VL-Screenshot三款模型已向社区全面开放,为相关技术研究与产业应用提供助力。

BGE-Code-v1:

模型地址:https://huggingface.co/BAAI/bge-code-v1

项目主页:https://github.com/FlagOpen/FlagEmbedding/tree/master/research/BGE_Coder

论文链接:https://arxiv.org/abs/2505.12697

BGE-VL-v1.5:

模型地址:https://huggingface.co/BAAI/BGE-VL-v1.5-zs

项目主页:https://github.com/FlagOpen/FlagEmbedding/tree/master/research/BGE_VL

论文链接:https://arxiv.org/abs/2412.14475

BGE-VL-Screenshot:

模型地址:https://huggingface.co/BAAI/BGE-VL-Screenshot

项目主页:https://github.com/FlagOpen/FlagEmbedding/tree/master/research/BGE_VL_Screenshot

论文链接:https://arxiv.org/abs/2502.11431

由智源研究院主导研发的通用向量模型系列BGE,旨在为各类数据提供高效一站式向量表征与语义检索方案,已推出覆盖中英文、多语言检索及重排模型等多个版本,持续刷新MTEB、C-MTEB、BEIR、MIRACL等主流文本向量评测基准。

BGE凭借高性能与开源特性备受业界关注,已广泛应用于RAG、神经搜索等场景,累计下载超6亿次,被国内外多家AI企业集成。

目前,检索增强技术正从传统的文本场景逐步拓展至涵盖代码与视觉等多模态数据的应用。

然而,相较于文本领域,现有向量模型在代码和视觉模态中的检索效果仍有待提升。

此次智源研究院发布的三款新模型,为构建更强大的多模态检索增强系统提供了有力的支持。

BGE-Code-v1

新一代代码优化语义向量模型

随着基础模型代码能力快速发展,Cursor、Copilot等辅助编程工具大幅提升生产力。

在面对百万行级代码库时,代码块检索增强需求凸显,因此检索模型的代码理解能力至关重要。

BGE-Code-v1是以Qwen2.5-Coder-1.5B为基座打造的新一代代码向量模型,专为各类代码检索相关任务而设计,同时配备了强大的多语言文本理解能力。

模型基于CoIR训练集和大量高质量代码-文本的合成数据进行训练,并使用课程学习,以BGE-gemma2-multilingual 的retrieval、STS数据为辅助,进一步提升代码与文本的理解能力。

BGE-Code-v1适用于开发文档搜索、代码库语义检索、跨语言信息获取等多种实际应用场景,是面向代码-文本检索任务的最优选择。

CoIR代码检索基准,收集了覆盖14种编程语言的4大类8个子任务,能够有效地评估模型在自然语言和代码的各类混合场景中的检索能力。

CodeRAG-Bench基准评估了代码检索模型在代码检索增强(RACG)中的表现。

BGE-Code-v1在两个基准上均以显著优势超越谷歌、Voyage AI、Salesforce、Jina等商业/开源模型,登顶SOTA。

BGE-VL-v1.5

通用多模态检索模型

BGE-VL-v1.5 完成多模态检索任务

BGE-VL-v1.5是基于LLaVA-1.6(7.57B参数)训练的新一代通用多模态检索模型,全面升级了图文理解能力并具有更强大的检索能力。

BGE-VL-v1.5在MagePairs 300万 (3M) 图文对齐数据基础上又收集了共100万条自然与合成数据(涵盖image-captioning数据、视觉问答数据、分类任务数据)进行多任务训练,显著地提升了模型在各类任务上的泛化性与理解能力。

基于MegaPairs数据,BGE-VL-v1.5在多模态检索任务中性能优势显著,不仅在图像检索中表现强劲,更在通用多模态场景中展现高适应性与准确率,适用于图文匹配、多模态问答、跨模态推荐等场景。

MMEB是当前使用最广泛的多模态向量基准,由:分类、视觉问答、检索、视觉基础知识,四类任务构成。

基于zero-shot设置(未使用MMEB训练集),BGE-VL-v1.5-zs在MMEB基准中刷新zero-shot模型最佳表现;在检索任务上,基于MMEB微调的BGE-VL-v1.5-MMEB以72.16分登顶SOTA。

BGE-VL-Screenshot

实用强大的视觉化文档向量模型

实际场景中网页、文档等多模态任务常由图文、符号、图表等多元素混合数据构成,这类任务称为「可视化信息检索」(Vis-IR),因此,多模态模型不仅需要具备从复杂结构中提取关键信息的视觉能力,还需精准理解文本与视觉语义。

目前,现有检索模型在此类任务中表现欠佳。

BGE-VL-Sc基于截图与文本检索

BGE-VL-Screenshot模型基于Qwen2.5-VL-3B-Instruct,以新闻、商品、论文、文档、项目主页等七类数据源进行训练,收集超过1300万张截图和700万组标注截图问答样本。

为了准确评估模型在Vis-IR任务上的表现,团队设计并推出了多模态检索基准MVRB(Massive Visualized IR Benchmark,涵盖截图检索、复合截图检索、截图QA和开放分类4项任务共20个数据集。

MVRB榜单链接:https://huggingface.co/spaces/BAAI/MVRB_leaderboard)

BGE-VL-Screenshot在4项任务中表现出色,以60.61的综合得分达到SOTA。

在此基础上,通过少量query2screenshot多语言数据训练,模型实现了在英文之外的多语言任务上的出色表现。

智源研究院将继续深耕向量模型与检索增强技术,进一步提升BGE模型系列的能力与通用性。

未来期待与更多科研机构与产业伙伴合作,共同推动检索与人工智能发展。欢迎广大研究者与开发者关注并使用 BGE 系列模型,共建开放繁荣的开源生态。

 时事1:亅apan熟女五十岚乚

  06月01日,民革海南省委会:构建体系破解海南农业品牌“杂而不精”,

  一是理论基础得到夯实。通过政治理论专题的学习,使我们进一步加深了对xx大、科学发观和党的农村政策的认识和理解,升华了同志们的政治理论和思想认识。在这次培训班上,通过系统学习,弥补了平时缺乏全面、系统学习理论知识的缺憾,进一步提高了理论素质。特别是通过结合我区实际,学习乡村经济理论后,对我区当前乃至今后一段时期的农村政策及解决“三农”问题,实现农民增收有了新的见解。

,Free HD XXXX Tube HD。

  06月01日,满眼都是生机勃勃!我国粮食主产区春耕春管进展顺利,

  众人心头一跳,一个八九岁的孩子轻松举起千斤铜鼎,在大族中虽然不算什么,但是在小山村那就了不得了。

,粗暴交乱叫XXX缅甸,911美女㊙️片黄在线观看游戏,91在线在线啪永久地址。

 时事2:小舞好湿⋯好紧⋯太爽了游戏

  06月01日,跟着总书记学党史·红色足迹 以“赶考”的清醒和坚定答好新时代的答卷,

  二秃子也跟来了,在他的身后探头探脑,四处踅摸,怎么看都有点贼眉鼠眼的感觉,与那金色的神庙很不相衬。

第一百七十二章 人皇威,日韩成人紧身丝袜,护士让病人吃大头奶,少妇全程穿着长靴做爰AV。

  06月01日,打破进口依赖,事关健康!碳-14供应将全面国产化,

  “族长爷爷,数千里的苍茫山脉彻底崩碎了,我们的栖居地找不到了。”小不点带来了让众人发呆的消息。

,原神芙宁娜裸体❌喷水,日韩做受高潮电影o,bbwbbwbbw大全。

 时事3:Gay白袜体育生自慰video

  06月01日,我们该如何评价火爆的“向上社交”?,

  “野民,你们可准备好了?”一头猛兽上,一个身穿黑色甲胄的男子喝问道,以有手中的铁鞭点指村民。

,上海熟妇搡BBBB搡BBBB,男男Gay做受❌❌视频中国,国产做受18~20岁A片。

  06月01日,东莞市第十七届人民代表大会第四次会议开幕 今年GDP预期增长5%!,

  若是别人的话,肯定是通体龟裂,而后炸碎。即便是手段高超,这条手臂多半也直接碎掉。而石渊宝术惊人,凝固了伤口,虽然半废,但臂膀总算没有碎掉。

,女坐隐私㊙️黄www.图片,巨胸爆乳❌❌❌在线看,梦红尘跪趴翘起雪白翘臀小说。

 时事4:阿离被爆❌吸乳羞羞自慰

  06月01日,甘肃徽县:古树“银”新韵 有“杏”赏千年,

  “别管那么多了,真若伤到,让他们在现实世界修养几个月吧。”为首的三名中年男子说道,全都爆发出了骇人的气息。

,八重神子被吸乳羞羞动漫,祼胸爆白色十乳液,黑色蕾丝透明胸罩一般用多久。

  06月01日,郁云峰:国际中文教育是增进文明互鉴的重要抓手,

  小不点很冷静,藏身在雾霭中,不断移动身体,改变方位,在等待机会。

,女趴下脱裙子撅屁股打pp,公开调教露出当众玩弄,野原琳被扒开腿猛❌。

责编:毛朝青

审核:史惟亮

责编:黄瑜

相关推荐 换一换