算子简报

2025-03-12 · 算子简报

1

阿里通义开源R1-Omni模型,提升多模态情感识别能力

阿里通义实验室于3月11日开源了R1-Omni模型,标志着全模态模型的重大进展。

该模型结合强化学习与可验证奖励,显著提升了多模态情感识别的推理能力。

训练过程分为冷启动和RLVR两个阶段,确保模型在情感识别任务中的稳定性和效率。

2

OpenAI推出新工具,助力AI智能体执行任务

OpenAI发布了一系列新工具,旨在简化AI智能体的开发流程。

新工具包括Responses API、Agents SDK和计算机使用工具,标志着AI功能的重大升级。

这些工具使AI能够从单纯回答问题转变为实际执行任务。

3

百度AI开源PP-TableMagic表格识别模型

百度推出PP-TableMagic,一个开源的表格识别解决方案,标志着表格信息提取领域的重大进步。

该技术通过多模型组网架构,克服了传统表格识别在复杂场景下的局限性。

PP-TableMagic实现了高精度的端到端表格识别,并支持高定制化微调。

4

Manus与阿里云通义千问达成合作,共推国产AI智能体产品

人工智能Agent产品新秀Manus与阿里云通义千问达成战略合作。

双方将基于通义千问系列开源模型,实现Manus的全部功能。

此举旨在为中国用户打造更具创造力的通用智能体产品。

5

MIDI技术可提取图片元素生成360度3D场景

MIDI技术能够从单张2D图像生成360度3D场景,提升虚拟现实和游戏开发效率。

通过智能分割和多实例同步扩散,MIDI高效构建细致的3D环境。

该技术为室内设计等领域的内容创作带来了新的可能性。

6

视频编辑技术VideoPainter支持长视频自动识别修改

VideoPainter是一款基于深度学习的视频编辑工具,能够通过提示词自动识别并修改视频内容。

该工具特别适合长视频处理,提升了视频制作的效率。

用户只需输入简短的指令,系统便能快速完成编辑。

7

开源版OpenAI Operator和Nanobrowser浏览器发布

Nanobrowser是一款完全免费的开源工具,提供高效的网页自动化功能。

用户可通过安装扩展程序并配置LLM API密钥,享受顶级的自动化体验。

该工具确保数据安全和隐私,适合不同层次的用户。

8

Luma AI发布IMM技术,实现图像生成十倍提速

Luma AI开源的Inductive Moment Matching (IMM)技术显著提升了图像生成速度和质量。

该技术通过创新的预训练算法,减少生成步骤,突破生成式预训练的瓶颈。

IMM在多个数据集上实现了高质量生成,提升了内容创作者的效率。

9

硅基流动推出DeepSeek-R1&V3 API,价格暴降75%

硅基流动的SiliconCloud平台推出DeepSeek-R1&V3 API批量推理功能,价格大幅下调。

此功能帮助用户低成本处理大批量数据任务,适用于多场景。

DeepSeek-V3批量推理价降50%,DeepSeek-R1限时降75%。

10

全国第二例AI版权案宣判,法院确认作者享有著作权

江苏省苏州市常熟市人民法院宣判一起AI生成内容著作权纠纷案,确认作者享有著作权。

法院认为作品的创作具有独创性,符合著作权法的保护要求。

侵权方被判公开道歉并赔偿1万元,未提出上诉,判决生效。

11

网友在小红书上调侃AI模型,形成幽默职场闹剧

网友们化身AI公司的“霸道总裁”,在群聊中调侃和指挥各种AI模型。

这一活动由网友Komorebi发起,吸引了广泛参与,形成幽默的职场互动。

尽管BotGroup平台功能尚显简陋,但其新奇玩法吸引了大量网友参与。

12

Domo AI发布i2v模型升级,提升稳定性与提示词理解能力

Domo AI对其图像到视频(i2v)模型进行了重大升级,提升了生成速度和稳定性。

新模型增强了对用户提示词的理解能力,支持多种风格转换。

这一升级极大提高了内容创作者的创作效率和灵活性。