ChronoEdit - 英伟达与多伦多大学联合开源的AI图像编辑框架

作者:Jam 发布时间: November 5, 2025 分类:技术 No Comments

ChronoEdit是英伟达与多伦多大学联合研发的开源AI图像编辑框架，将图像编辑任务重新定义为视频生成任务，以确保编辑结果在时间和物理上的一致性。通过从一个 14B 参数的预训练视频生成模型中蒸馏出时序先验知识，ChronoEdit 将推理过程拆分为视频推理和上下文编辑两个阶段，实现由时序推理驱动的图像编辑。支持复杂的编辑任务，如视角变换、姿态旋转和物理交互模拟等。

>>展开阅读

Petri - Anthropic开源的 AI 安全审计框架

作者:Jam 发布时间: November 3, 2025 分类:技术 No Comments

Petri 是 Anthropic 开发的开源 AI 安全审计框架，系统性地评估 AI 模型的安全性和行为对齐情况。通过模拟真实场景，让自动化审计员与目标模型进行多轮对话，然后由法官代理对模型的行为进行多维度评分。Petri 支持多种模型 API，并提供丰富的种子指令，涵盖欺骗、谄媚、配合有害请求等高风险情境。在 14 个前沿模型上进行了测试，发现所有模型在不同场景下都存在不同程度的安全对齐风险。

>>展开阅读

LongCat-Flash-Omni - 美团开源的全模态大语言模型

作者:Jam 发布时间: November 3, 2025 分类:技术 No Comments

LongCat-Flash-Omni 是美团 LongCat 团队发布的开源全模态大语言模型。拥有5600亿参数规模（激活参数270亿），在保持庞大参数量的同时，实现了毫秒级的实时音视频交互能力。模型基于 LongCat-Flash 系列的高效架构设计，创新性地集成了多模态感知模块与语音重建模块，支持文本、图像、视频理解及语音感知与生成等多种模态任务。LongCat-Flash-Omni 在全模态基准测试中达到开源最先进水平（SOTA），在文本、图像、音频、视频等关键单模态任务中均展现出极强的竞争力。采用渐进式早期多模融合训练策略，逐步融入不同模态数据，确保全模态性能强劲且无单模态性能退化。模型支持128K tokens上下文窗口及超8分钟音视频交互，具备多模态长时记忆和多轮对话能力。

>>展开阅读

思考的终结：人类脑力降级是比AI崛起更大的危机

作者:Jam 发布时间: November 3, 2025 分类:日志 No Comments

我们痴迷于“思考机器”的崛起，却忽视了“思考人群”的加速衰退。这种“自我缴械”，正让深度思考力提前消亡，此消彼长才是真正的危机。文章来自编译。

>>展开阅读

马斯克的 AI 世界，5 年后是什么样？

作者:Jam 发布时间: November 3, 2025 分类:日志 No Comments

马斯克关于人工智能如何重塑人类文明的宏大愿景，不仅仅是技术升级。他详细阐述了三个核心基础设施：Grok，作为一个能理解意图并执行任务的行动系统，将取代传统的搜索模式；交互方式的革命，即在未来五年内，手机将取消应用程序和操作系统，只保留屏幕和语音功能，以对话形式驱动一切行动；以及Optimus机器人，作为AI进入物理世界的载体，负责执行体力劳动。马斯克认为，这套系统最终将创造一个物质富足的社会，工作不再是生存手段，而是个人选择，并强调确保AI追求最大限度的真相以保障人类安全的重要性。

>>展开阅读

Kimi Linear - 月之暗面开源的新型混合线性注意力架构

作者:Jam 发布时间: November 1, 2025 分类:技术 No Comments

Kimi Linear 是月之暗面开源的新型混合线性注意力架构，以 Kimi Delta Attention（KDA）为核心，通过更细粒度的门控机制优化了传统注意力模型，显著提升了硬件效率和内存控制能力。架构采用 3:1 的混合层级结构，即每三个 KDA 线性注意力层后插入一个全注意力层（MLA），既保证了高效的局部信息处理，又能周期性地捕捉全局依赖关系。结合专家混合（MoE）技术，Kimi Linear 在 480 亿参数规模下，每个前向传播仅激活 30 亿参数，大幅提升了计算效率。

>>展开阅读

FIBO - 全球首个开源原生支持JSON的文本生成图像模型

作者:Jam 发布时间: November 1, 2025 分类:技术 No Comments

FIBO 是 Bria AI 开发的全球首个开源的原生支持 JSON 的文本生成图像模型。基于 8B 参数的 DiT（扩散 Transformer）架构，采用流匹配（Flow Matching）训练方式，使用 SmolLM3-3B 作为文本编码器，并在超过 1 亿条结构化 JSON 描述上训练而成。FIBO 的核心优势在于其 VLM 引导的 JSON 原生提示词体系，能将简短的文本提示扩展为详细的结构化描述，生成高质量的图像。支持迭代可控生成，用户可以基于已有 JSON 或图像进行多轮细化与灵感扩展，能单独调整某个属性而不破坏整体场景。FIBO 提供 API 接口、ComfyUI 节点及本地推理支持，便于开发者集成和使用。FIBO 100% 使用授权数据，确保了企业级的合规性。