DeepSeek-Math-V2是幻方旗下AI公司DeepSeek开源的数学推理模型,最新版本基于DeepSeek-V3.2-Exp-Base改进,性能超越Gemini DeepThink,达到国际数学奥林匹克(IMO)金牌水平。模型采用多头潜在注意力(MLA)技术大幅降低推理显存消耗,通过递归定理证明管道结合非形式化与形式化推理,解决了Minif2F测试88.9%的问题。其配套开源数据集ProverBench包含325道高中至本科难度数学题,涵盖数论、代数等10个领域。<a class="js" 
>>展开阅读
马斯克的背水一战,大获全胜!2025年最值得期待的AI模型——Grok 4,终于来了!北京时间7月10日,马斯克旗下的人工智能公司xAI正式发布了Grok 4。这是Grok系列模型的第四次重要迭代,号称是“世界上最强AI模型”。根据官方的描述,Grok 4具备“逻辑推理更强、语言理解更准确”的优势,在处理学术问题上的表现,已达到博士级别。
>>展开阅读
Depth Anything 3(DA3)是字节跳动Seed团队研发开源的3D视觉重建模型。通过单一Transformer架构实现任意视角下的空间几何重建,仅需预测深度图和射线图即可还原三维场景,相比传统方法精度提升35.7%,运行效率达126 FPS。其创新点在于采用"深度-射线"统一表征法,无需多任务模块,支持从单张图片到多视角视频的灵活处理,能适配自动驾驶、SLAM等场景。模型在视觉几何基准测试中全面超越现有方法,相关代码和演示已公开
>>展开阅读
Z-Image是阿里通义实验室开源的图像生成模型,具有高效、快速和强大的图像生成能力。采用单流扩散Transformer架构(S3-DiT),将文本、视觉语义和图像VAE token整合为统一输入流,最大化参数效率。其核心技术创新包括解耦分布匹配蒸馏(Decoupled-DMD)和强化学习与分布匹配蒸馏融合(DMDR),显著提升少步生成性能和图像质量。Z-Image-Turbo版本仅需8次函数评估就能生成高质量图像,支持亚秒级推理延迟,适配低显存设备,擅长照片级真实感图像生成和双语文本渲染。Z-Image-Edit版本专注于图像编辑任务,可依据自然语言提示进行精确编辑。Z-Image-Base是未经蒸馏的基础模型,为社区提供更广泛的微调和定制开发空间
>>展开阅读
ROCK(Reinforcement Open Construction Kit) 是阿里巴巴开源的智能体训练环境沙箱,解决智能体在真实环境中无法规模化训练的难题。ROCK 提供了高稳定的沙箱管理服务,每个智能体(Agent)都有独立的“安全屋”,互不干扰,即使某个环境崩溃,也不会影响其他环境。具备全方位健康监控、智能负载均衡、自动故障恢复等功能,确保训练过程稳定高效。ROCK 与阿里此前的强化学习(RL)训练框架 ROLL 深度协同,构成完整的智能体训练闭环。ROLL 负责训练算法,而 ROCK 提供训练环境,让开发者能从单机实验无缝扩展到大规模集群训练。
>>展开阅读
让闲置的安卓设备焕发新生,同时创造一种美观的方式来欣赏照片。一款免费开源的「Showcase App」应用程序,将设备变成漂亮的数字相框。灵感来源于 macOS 的照片墙屏保,这款应用以可自定义的、视觉上令人愉悦的布局展示您的图片。
>>展开阅读
FLUX.2是Black Forest Labs发布的开源图像生成与编辑模型,支持文生图、多图参考和图像编辑,具备更丰富的细节、清晰纹理和稳定光线。分为四个版本:FLUX.2 [pro](媲美顶级闭源模型)、FLUX.2 [flex](可调节参数)、FLUX.2 [dev](开源32B权重模型)和FLUX.2 [klein](即将推出的轻量化模型)。模型基于Mistral-3 24B视觉语言模型和Rectified Flow Transformer架构,能处理复杂排版、信息图和UI文字渲染,支持高达4MP分辨率的编辑。开源版本可在Hugging Face获取,商业授权需访问官网。
>>展开阅读
ViMax是香港大学数据科学实验室开源的多智能体视频生成框架,能实现从创意输入到视频输出的全流程自动化。整合了剧本生成、分镜设计、镜头规划和视频渲染等功能,支持用户通过自然语言描述生成连贯的影视级视频,特别擅长处理长篇小说转视频等复杂任务。框架采用MIT开源协议,提供本地部署方案,适用于自媒体、教育等内容创作场景。与传统AI视频工具相比,ViMax解决了角色不连贯、叙事结构缺失等问题,能自动生成带音画同步的完整视频。
>>展开阅读
- «
- 1
- 2
- 3
- 4
- 5
- ...
- 121
- »