Vidi2 - 字节跳动开源的多模态视频理解与生成大模型

作者:Jam 发布时间: December 3, 2025 分类:技术 No Comments

Vidi2是字节跳动开源的第二代多模态视频理解与生成大模型，专注于视频内容的理解、分析和创作。支持文本、视频、音频三种模态的联合输入，能同时理解画面内容、声音信息以及自然语言指令，实现跨模态的交互与推理。可精准定位视频中特定事件或目标对象的时间范围和空间位置，模型能自动标注出对应的时间段和画面中的目标区域，误差可精确到毫秒级。能处理数小时长的原始视频素材，快速检索出符合特定语义的片段。

>>展开阅读

Jam's Blog II

JamLee.Life 心情演绎

Vidi2 - 字节跳动开源的多模态视频理解与生成大模型