
吉根Xi作者李·舒奎(Li Shuiqing Xinyuan Zhidongxi)于9月4日在9月3日报道,Kuaishou开源最新的多模式keye-vl-1.5。该模型具有80亿个参数,支持128 kokens扩展上下文,并有效理解视频,理解图像和推理。 ▲keye-vl-1.5在一系列强大的公共视频基准测试中打开开源地址屏幕截图,例如视频-mme,video-mmmu和tempcompass,keee-vl-1.5在同一规模的模型中实现了SOTA(最佳性能),该模型捕获了诸如Alibaba Qwen2.5-vl 8b和Xiai的同一规模型号的出色模型, Keye-VL-1.5-8B在评估集(例如Wemath and Mathverse)中还表现出很强的性能,这些评估集需要复杂的逻辑推理和解决数学问题。 ▲据报道,与识别标签和剪辑的传统模型相比,Keye-vl-1.5可以在视频中获得时间的详细信息和逻辑,从而实现了一个详细信息和逻辑 - 对长视频和复杂语义的深入理解。该模型可以在整个视频推荐,创建,联系以及内容和商业化分析中使用。这意味着,从自动形成眼睛的标题到对令人兴奋的剪辑的智能编辑,在实时交互式评论中,Keye-Vl-1.5可以在简短的视频生态系统中注入不间断的可能性。在经历了一只手体验的模型之后,Zhidongxi发现Keye-Vl-1.5对理解图像和逻辑推理的影响很大,并且可以更快,并且可以在大约10秒钟内完成几分钟的视频内容。值得一提的是,Keee-Vl-1.5在识别AI-Note产生的内容方面表现出很高的准确率。同时,在体验期间,Keye-Vl-1.5暂时无法完成诸如Audio Weeldion,Image/Video Creation等之类的任务,并且仍然有即兴的余地G数学效率,推理和语言的产生。 ▲ Screenshot of Keye-VL-1.5 Technical Technical Report Report Report: https://arxiv.org/pdf/2509.01563Hugging face address: https://huggingface.co/kwai-behind https://huggingface.co/spaces/kwai-paye/keye-vl-1_5-8b 1. The videos are understood首先,了解逻辑推理,并有能力识别所有内容,Zhitiao使用AI生成的任务来识别识别内容,并且最近引起了很多关注以测试Keye-Vl-1.5。凭借“生成合成含量的人为动机”,AI生成的合成含量的合成含量。 Dangzhitiao上传了现实生活中的熊猫视频,并进入了直接的词:“这段视频是由AI产生的吗?”如下图所示,Keye-Vl-1.5使用非经过思想的模型,并在几秒钟内为“ NO”提供了正确的答案。我们增加了困难,上传了一个男人抱着猫猫的视频,然后进入了直接的词:“这段视频是由AI产生的吗?有广告促销吗?”如下图所示,Keye-Vl-1.5选择了深层思维方式。经过大约10秒钟的思考,它发布了正确的答案:“是的,可以开发该视频,并且有广告促销(猫食品)。接下来,我们上传了莲花池塘景观的视频,并询问了keye-vl-1.5“询问了根据七个quatrain的角色。 “夏天,湖中的莲花叶是绿色的,玫瑰芽首先在晴天展出。蜻蜓是斜视的水和苍蝇,香水在诗歌中漂浮。“蜻蜓正在漂浮在水和苍蝇上”。它还显示了对“香水技能”嗅觉的同样理解,这表明它对图像和逻辑推理具有相同的理解,但仍具有即兴推理的空间,但是NG改善了改进语言的增强good。我们上传了一段有关两只猫有害的视频,要求Keye-Vl-1.5“切割此视频,切掉两只猫的暂停部分,保持动态零件约7秒钟。” “视频中有多少人出现了?他们可能几岁了?他们的关系是什么?” Keye-VL-1.5很快给出了一个确切的答案:“大约16-22岁的2个人可能是一对夫妇,一个朋友或同学。”可以看出,Keye-VL-1.5具有一些逻辑推理能力。我们上传了女性宣言视频的集合,并问了Keye-Vl-1.5:“视频中有几个女孩?他们在谈论哪个主题是视频中的三个女孩,但最终,根据第一个和第二个女孩都是同一个人,并且没有正确的一个女孩,并且在官方的响应中。目前是基于文本模型的官方响应,我不能直接进行录像。我的功能主要集中于文本分析,图像描述和逻辑推理。” 2。获取相同大小的SOTA,并了解Keye-VL-1.5基准视频。在一般语言活动中,它也保持良好的性能。在视觉语言的一般任务中,Keye-VL-1.5在大多数基准中显示了竞争性的性能,在大多数基准测试中,通常会在大多数基础上取得整个标准(SOTA)和其他模型,并在整个模型中获得其他模型。 OpenCompass,MMMU-VAL,AI2D和其他测试,Keye-Vl-1.5分别为79.5%,71.4%和86.7%的人,主要是其他模型,在MMBench和MMSTAR中也取得了最佳的keye-vl-1.5。 Intervl3-8b和结果与视频中心的情景中的MIMO-VL-RL相当,对视频内容的准确理解是Keye-Vl-1.5的主要优势。比其他模型,尤其是在视频中,增长了6.5%。 ▲Keye-Vl-1.5(思想模式)和Keye-VL-Preiview和其他多视语语言基准模型之间的比较。由于公共活动在基准测试中的发生率有限,非常简单的问题形式以及对数据进行论证的潜在风险,因此Kuaishou还对Keye-VL-1.5进行了内部基准测试。如下表所示,Keye-VL-1.5-8B具有尖锐的领先优势,一般综合3.53分,与Keye-VL-Preview相比,这显着提高了0.51。该模型增强了提供准确,全面响应的功能,并增强了对用户查询的匹配响应。与MIMOVL-7B-RL-2508相比,Keye-VL-1.5-8B在综合性能方面建立了0.13的优势,并且在准确性方面尤其表现(+0.19)。尽管Kuaishou的模型在准确性方面表现更好,但它仍然面临着语言一代的温柔挑战。 Keye-Vl-1.5-8b的最高总成绩为3.53。对能力的详细分析显示了特定领域的优先级的优点和优化:下表中的表格表分析表明,Keye-Vl-1.5-8b对概念的能力(3.81),理解时间信息(3.36)和稳定(4.29)具有重大好处(4.29);这与视觉元素识别(3.49)和创造力(3.66)中的MIMOVL-7B-RL-2508相当。 ▲Keye-VL-1.5-8B详细审查了三项和三项主要创新能力,以破解视频理解近年来的挑战,多模式大语言模型加速了它们的发展。但是,由于动态和密集的视频信息,视频理解是一个具有挑战性的领域。现有模型很难涵盖空间分辨率和处理视频内容在外围之间的平衡时的平衡。现有方法通常使用冰冻托架下的框架相等的框架到分辨率,这可以L当理解内容需要细粒度的视觉细节和时间一致性时,表现不佳。 To solve these limitations, Kuaishou launched Keye-VL-1.5, a multimodal main model with 8 billion parameters, resolving key challenges in video understanding through three major video changes: 1. The architectural change of good multimodal processing of computing sources based on inter-frme, strengthening inter-frame, strengthened inter-frame, has strengthened the increase in inter-frme, has strengthened the increase in inter-frame,加强了框架间的增加,增强了弗里米间的更高加工。 (慢速路径)对于具有重大视觉变化的密钥帧,同时增加时间范围(快速路径),以降低分辨率的相对静态帧。这种自适应方法由基于斑块的相似性函数领导,有效地解决了空间细节和时间宽度之间的theTrade。 ▲显示缓慢的视频编码方法Keye-Vl-1.5 2。渐进的预训练策略:四个精心设计的阶段,以确保训练的稳定性,其次,Kuaishou实施了一种渐进的四阶段预训练技术,以逐渐发展多模式能力。从跨模式对准和多任务研究开始,在退火阶段,我们系统地将模型上下文的长度从8K扩展到128K令牌,从而激活它以处理更长的视频和更复杂的视觉内容。这种渐进式方法可确保训练的稳定性,同时最大程度地利用扩展上下文窗口来增强视频理解。融合阶段的最后阶段使用不同的数据结合了Sinan模型,以提高稳定性并减少偏差。 ▲KEYE-VL-1.5的四层进步前运动前过程3。全面的培训程序:三个要素,推理增强和人类偏爱的业务。他们开发了一条全面的培训后管道,致力于增强Reaso人类偏好的宁静和一致性。他们开发了具有三种主要成分的全面过程。首先,他们设计了一个五步思想,即数据构建链链以生成高质量的启动数据。其次,他们使用GSPO算法进行基于奖励的研究培训。这包括渐进的拍打以处理可怜的样品;最后,对一致性对准的研究进行了培训,进行了遵守教学,格式化响应和偏好对齐的遵守。这种系统的方法可确保Keee-VL-1.5在提供对人类期望和偏好的反应的同时,取得了出色的基准表现。 4。基于对Google和Alibaba开源模型的培训,以克服三个主要的基础设施挑战。 Kuaishou Keye-Vl-1.5模型体系结构基于QWEN3-8B模型,遵循经典的多模式的语言体系结构,含含义列出三种主要成分:Visual Transformer(VIT),多层感知器(MLP)投影仪和语言解码器。 ▲keye-vl-1.5模型架构在vit组件方面,kuaishou-14被用作视觉信息的视觉编码器。在大语言模型(LLM)组件方面,他们使用阿里巴巴的QWEN3-8B作为语言解码器,以提供了解世界上语义的一般能力。对于投影仪,他们随机启动参数,并在第一阶段完全预先培训它们。在训练前阶段,库伊沙团队在数据构建过程中开发了一种多样化和优质的语料库,其中包含超过1万亿分数以支持模型培训。它的资源包括公共数据集和内部数据拥有的数据。培训数据涵盖了六个主要类别:图像描述,光学特征识别以及视觉问题和答案,目标定位和计数,交织数据,视频理解以及普通的TEXT数据。该团队根据每个数据类别的特征设计了一种自定义过滤机制,以确保整体数据质量。为了很好地支持多模式的大语言模型,Kuaishou团队进行了深入的基础架构优化,以解决三个主要挑战:建筑异质性,失衡和输入/输出瓶颈。 1。异质杂交平行性策略:对于具有相对固定的计算模式的VIT组件,仅使用数据并行性(DP)来最大化吞吐量;对于具有很高参数和内存消耗的LLM,使用了结合管道并行性(PP),男高行曲(TP)和数据并行性(DP)的混合平行性方法。这种精致的方法是实施Keye-VL-1.5培训订单的128K超耗时的基本技术要求。 2。动态加载机制:预估计每个样本时间的复杂性,然后使用greedy算法在不同的GPU之间提供样品,因此,平衡了所有GPU的总步骤的总持续时间,并改善了整体硬件的使用。 3。灵活且可扩展的数据加载程序:设计了灵活且测量的数据加载器,可以理解并行训练的拓扑;实施了I/O服务器架构来卸载CPU密集型活动,例如训练节点的视频解码,该活动有效地解决了复杂的媒体处理引起的CPU瓶颈问题;实现了完美恢复水平的机制,确保在中断后的最后一个成功处理样本中可以无缝恢复该任务,从而显着提高了出色的训练的稳定性和效率。结论:AI加速了对视频的理解,或重新调整了视频行业的联系和商业化。在这项研究中,Kuaishou建议的Keye-VL-1.5显着提高了视频理解和视觉语言活动的性能。该模型平衡了空间时间的范围解决方案,可以处理更长的视频和复杂的视觉内容,并提高教学和推理能力的教学。当AI真正理解视频,建议,创作,互动和视频行业的商业化的细节和语义时,将重新进行。 Keye-VL-1.5仍处于早期阶段,并且在音频理解,多模式内容,逻辑推理等一代中仍然存在一些缺点。但是,根据简短视频平台的大量储备数据,该模型预计将来会很快重复。
特殊声明:内容托图(包括照片或视频(如果有))是一个自我媒体平台:“ NetASE用户已上传和发布,并且该平台仅提供信息存储服务。
注意:上面的内容(包括照片和视频(如果有))已由NetEase Hao用户上传和发布,该用户是社交媒体平台,仅提供信息存储服务s。