Vidi2 - 字节跳动开源的多模态视频理解与生成大模型

Vidi2是字节跳动开源的第二代多模态视频理解与生成大模型,专注于视频内容的理解、分析和创作。支持文本、视频、音频三种模态的联合输入,能同时理解画面内容、声音信息以及自然语言指令,实现跨模态的交互与推理。可精准定位视频中特定事件或目标对象的时间范围和空间位置,模型能自动标注出对应的时间段和画面中的目标区域,误差可精确到毫秒级。能处理数小时长的原始视频素材,快速检索出符合特定语义的片段。Vidi2 - 字节跳动开源的多模态视频理解与生成大模型

>>展开阅读