威廉希尔WilliamHill·足球(中国)体育官方网站
搜索 猫眼电影 融媒体矩阵
  • 山东手机报

  • 猫眼电影

  • 大众网官方微信

  • 大众网官方微博

  • 抖音

  • 人民号

  • 全国党媒平台

  • 央视频

  • 百家号

  • 快手

  • 头条号

  • 哔哩哔哩

首页 >新闻 >社会新闻

代码、多模态检索登顶SOTA!智源BGE向量模型三连击,并全面开放

2025-05-21 23:53:33
来源:

猫眼电影

作者:

王声辉

手机查看

  猫眼电影记者 林祖涵 报道w3u7903ejky2ywls

机器之心发布

机器之心编辑部

检索增强技术在代码及多模态场景中的发挥着重要作用,而向量模型是检索增强体系中的重要组成部分。针对这一需求,近日,智源研究院联合多所高校研发了三款向量模型,包括代码向量模型 BGE-Code-v1,多模态向量模型 BGE-VL-v1.5 以及视觉化文档向量模型 BGE-VL-Screenshot。这些模型取得了代码及多模态检索的最佳效果,并以较大优势登顶 CoIR、Code-RAG、MMEB、MVRB 等领域内主要测试基准。BGE 自 2023 年 8 月发布以来,已成为中国首个登顶 Hugging Face 榜首的国产 AI 模型以及 2023 年所有发布模型的全球下载量冠军。

目前,BGE-Code-v1、BGE-VL-v1.5、BGE-VL-Screenshot 三款模型已向社区全面开放,为相关技术研究与产业应用提供助力。

BGE-Code-v1:

模型地址:https://huggingface.co/BAAI/bge-code-v1项目主页:https://github.com/FlagOpen/FlagEmbedding/tree/master/research/BGE_Coder论文链接:https://arxiv.org/abs/2505.12697

BGE-VL-v1.5:

模型地址:https://huggingface.co/BAAI/BGE-VL-v1.5-zs项目主页:https://github.com/FlagOpen/FlagEmbedding/tree/master/research/BGE_VL论文链接:https://arxiv.org/abs/2412.14475

BGE-VL-Screenshot:

模型地址:https://huggingface.co/BAAI/BGE-VL-Screenshot项目主页:https://github.com/FlagOpen/FlagEmbedding/tree/master/research/BGE_VL_Screenshot论文链接:https://arxiv.org/abs/2502.11431

由智源研究院主导研发的通用向量模型系列 BGE,旨在为各类数据提供高效一站式向量表征与语义检索方案,已推出覆盖中英文、多语言检索及重排模型等多个版本,持续刷新 MTEB、C-MTEB、BEIR、MIRACL 等主流文本向量评测基准。BGE 凭借高性能与开源特性备受业界关注,已广泛应用于 RAG、神经搜索等场景,累计下载超 6 亿次,被国内外多家 AI 企业集成。

目前,检索增强技术正从传统的文本场景逐步拓展至涵盖代码与视觉等多模态数据的应用。然而,相较于文本领域,现有向量模型在代码和视觉模态中的检索效果仍有待提升。此次智源研究院发布的三款新模型,为构建更强大的多模态检索增强系统提供了有力的支持。

BGE-Code-v1

新一代代码优化语义向量模型

随着基础模型代码能力快速发展,Cursor、Copilot 等辅助编程工具大幅提升生产力。在面对百万行级代码库时,代码块检索增强需求凸显,因此检索模型的代码理解能力至关重要。

BGE-Code-v1是以 Qwen2.5-Coder-1.5B 为基座打造的新一代代码向量模型,专为各类代码检索相关任务而设计,同时配备了强大的多语言文本理解能力。模型基于 CoIR 训练集和大量高质量代码 - 文本的合成数据进行训练,并使用课程学习,以 BGE-gemma2-multilingual 的 retrieval、STS 数据为辅助,进一步提升代码与文本的理解能力。BGE-Code-v1 适用于开发文档搜索、代码库语义检索、跨语言信息获取等多种实际应用场景,是面向代码 - 文本检索任务的最优选择。

CoIR 代码检索基准,收集了覆盖 14 种编程语言的 4 大类 8 个子任务,能够有效地评估模型在自然语言和代码的各类混合场景中的检索能力。CodeRAG-Bench 基准评估了代码检索模型在代码检索增强(RACG)中的表现。BGE-Code-v1 在两个基准上均以显著优势超越谷歌、Voyage AI、Salesforce、Jina 等商业 / 开源模型,登顶 SOTA。

BGE-VL-v1.5

通用多模态检索模型

BGE-VL-v1.5 完成多模态检索任务

BGE-VL-v1.5是基于 LLaVA-1.6(7.57B 参数)训练的新一代通用多模态检索模型,全面升级了图文理解能力并具有更强大的检索能力。BGE-VL-v1.5 在 MagePairs 300 万 (3M) 图文对齐数据基础上又收集了共 100 万条自然与合成数据(涵盖 image-captioning 数据、视觉问答数据、分类任务数据)进行多任务训练,显著地提升了模型在各类任务上的泛化性与理解能力。

基于 MegaPairs 数据,BGE-VL-v1.5 在多模态检索任务中性能优势显著,不仅在图像检索中表现强劲,更在通用多模态场景中展现高适应性与准确率,适用于图文匹配、多模态问答、跨模态推荐等场景。

左为 BGE-VL-v1.5-zs 和其他 zero-shot 模型在MMEB上的表现,右为 BGE-VL-v1.5-MMEB 在 MMEB 基准检索任务上的表现

MMEB 是当前使用最广泛的多模态向量基准,由:分类、视觉问答、检索、视觉基础知识,四类任务构成。基于 zero-shot 设置(未使用 MMEB 训练集),BGE-VL-v1.5-zs 在 MMEB 基准中刷新 zero-shot 模型最佳表现;在检索任务上,基于 MMEB 微调的 BGE-VL-v1.5-MMEB 以 72.16 分登顶 SOTA。

BGE-VL-Screenshot

实用强大的视觉化文档向量模型

实际场景中网页、文档等多模态任务常由图文、符号、图表等多元素混合数据构成,这类任务称为 “可视化信息检索”(Vis-IR),因此,多模态模型不仅需要具备从复杂结构中提取关键信息的视觉能力,还需精准理解文本与视觉语义。目前,现有检索模型在此类任务中表现欠佳。

BGE-VL-Sc 基于截图与文本检索

BGE-VL-Screenshot模型基于 Qwen2.5-VL-3B-Instruct ,以新闻、商品、论文、文档、项目主页等七类数据源进行训练,收集超过 1300 万张截图和 700 万组标注截图问答样本。

为了准确评估模型在 Vis-IR 任务上的表现,团队设计并推出了多模态检索基准MVRB(Massive Visualized IR Benchmark,榜单链接:https://huggingface.co/spaces/BAAI/MVRB_leaderboard),涵盖截图检索、复合截图检索、截图 QA 和开放分类 4 项任务共 20 个数据集。

左为多语言 MVRB 测评结果,右为不同尺寸多模态检索模型 MVRB 评测结果对比

BGE-VL-Screenshot 在 4 项任务中表现出色,以 60.61 的综合得分达到 SOTA。在此基础上,通过少量 query2screenshot 多语言数据训练,模型实现了在英文之外的多语言任务上的出色表现。

智源研究院将继续深耕向量模型与检索增强技术,进一步提升 BGE 模型系列的能力与通用性。未来期待与更多科研机构与产业伙伴合作,共同推动检索与人工智能发展。欢迎广大研究者与开发者关注并使用 BGE 系列模型,共建开放繁荣的开源生态。

 时事1:鸣人❌雏田18禁无码免费

  05月21日,《黑神话:悟空》爆火 外国游戏设计师称赞中国游戏产业非常成功京港青年文化人才交流收官 吴志华:为年轻人注入文化创新的DNA,

  夏暑未消,秋意渐浓,今天,我们在这里隆重举行武义一中军训开幕式。值此20x级新生军训开训之际,首先,我谨代表校党委、行政,向前来指导军训的教官们表示热烈的欢迎和衷心的感谢!向为军训辛勤工作的老师们和积极参训的同学们表示亲切的慰问和良好的祝愿!

,班长在脱了丝袜让我C好爽。

  05月21日,宁夏回族自治区十三届人大二次会议开幕,

  每当运动员奔驰在800米跑道上时

,原神3D同人18video网站,裸体+光屁屁+搂胸+中国,baby的婚礼1—3杨幂杨颖婚礼小说。

 时事2:扒开狂揉难受sm

  05月21日,【台胞“申”活】打卡魔都|曾泰元:在上图东馆感受“智慧”阅读,

  在接下来的一个多月里,小不点不时与青鳞鹰出去,有时直接消失很多天,最后终于探清了情况。

,sm调教视频❤️永久免费,公交车强开嫩苞h文高辣h,红杏出墙电影完整版在线高清观看。

  05月21日,呼和浩特昭君文化节开幕 沿“出塞”之路品和亲文化,

  谁能想到一个孩子单臂一晃就有如此惊世的神力?这般年幼,大眼还在扑闪着,可动作一展,却迅疾如雷霆!

,AV➕无码➕高潮3满十八,惩罚女仆打屁股模拟器,同性男男黄Gary免费。

 时事3:高潮✡️喷水✡️AⅤ

  05月21日,广东福建等地仍多降雨 西北地区东部有沙尘天气,

  小不点嗖嗖奔跑,直接扛回来一头高大的独角兽,令它四蹄朝天,无论怎么挣动都没用。

,68日本XXXXXⅩXXX59,红猫大本营在线观看免费播放电视剧,丁·度巴斯女人与狗。

  05月21日,日本三大航运公司决定停止所有船舶穿越红海海域,

  小不点大眼闪亮,对宝剪爱不释手,对他来说,莹润的金色骨器没有任何危害,相反可以护体。

,妺妺洗澡让我进去c了漫画,动漫自慰✅免费网站,被室友狂c躁到高潮失禁软件下载。

 时事4:国产高潮白浆

  05月21日,截至今日12时 新疆已记录到56次3级及以上余震,  与此同时,那些“被参与”此类研学项目的大凉山孩子,则奔波在各类“公益课堂”“免费夏令营”之间,应付种类繁多、质量参差不齐的支教研学团。,ass美泬裸体pics,黄太子abb,白鹿造梦mv免费观看第10期。

  05月21日,一场学生课程衍生出的展览 “尔滨·宝藏”让人眼前一亮,

  五是把好正式选举关。按照法定时间要求,在正式选举日前5天把正式候选人名单在各村进行张贴公示,做好宣传,让广大选民及早了解候选人的基本情况。在选举日前,镇指导小组召开联村指导员会议,专题部署正式选举日工作安排。同时,联村指导员还下村辅导培训选举工作人员。为防止突发事件的发生,镇党委协调镇派出所,做到警力随时待命。由于事前部署周密,职责明确,x月20日全镇选举日那天,全镇xx个行政村的选举工作操作规范,流程严密,秩序井然。虽然,、等四个村进行二次选举,但是,最终还是顺利地完成了选举任务。

,free性欧美XX69,美国农夫航道入口导航功能设置,男男GaYGAYS✅男同肌肉。

责编:方志纯

审核:季翔

责编:李会杰

相关推荐 换一换