算子简报

2025-03-12 · 算子简报

阿里通义开源R1-Omni模型，提升多模态情感识别能力

•阿里通义实验室于3月11日开源了R1-Omni模型，标志着全模态模型的重大进展。

•该模型结合强化学习与可验证奖励，显著提升了多模态情感识别的推理能力。

•训练过程分为冷启动和RLVR两个阶段，确保模型在情感识别任务中的稳定性和效率。

OpenAI推出新工具，助力AI智能体执行任务

•OpenAI发布了一系列新工具，旨在简化AI智能体的开发流程。

•新工具包括Responses API、Agents SDK和计算机使用工具，标志着AI功能的重大升级。

•这些工具使AI能够从单纯回答问题转变为实际执行任务。

百度AI开源PP-TableMagic表格识别模型

•百度推出PP-TableMagic，一个开源的表格识别解决方案，标志着表格信息提取领域的重大进步。

•该技术通过多模型组网架构，克服了传统表格识别在复杂场景下的局限性。

•PP-TableMagic实现了高精度的端到端表格识别，并支持高定制化微调。

Manus与阿里云通义千问达成合作，共推国产AI智能体产品

•人工智能Agent产品新秀Manus与阿里云通义千问达成战略合作。

•双方将基于通义千问系列开源模型，实现Manus的全部功能。

•此举旨在为中国用户打造更具创造力的通用智能体产品。

MIDI技术可提取图片元素生成360度3D场景

•MIDI技术能够从单张2D图像生成360度3D场景，提升虚拟现实和游戏开发效率。

•通过智能分割和多实例同步扩散，MIDI高效构建细致的3D环境。

•该技术为室内设计等领域的内容创作带来了新的可能性。

视频编辑技术VideoPainter支持长视频自动识别修改

•VideoPainter是一款基于深度学习的视频编辑工具，能够通过提示词自动识别并修改视频内容。

•该工具特别适合长视频处理，提升了视频制作的效率。

•用户只需输入简短的指令，系统便能快速完成编辑。

开源版OpenAI Operator和Nanobrowser浏览器发布

•Nanobrowser是一款完全免费的开源工具，提供高效的网页自动化功能。

•用户可通过安装扩展程序并配置LLM API密钥，享受顶级的自动化体验。

•该工具确保数据安全和隐私，适合不同层次的用户。

Luma AI发布IMM技术，实现图像生成十倍提速

•Luma AI开源的Inductive Moment Matching (IMM)技术显著提升了图像生成速度和质量。

•该技术通过创新的预训练算法，减少生成步骤，突破生成式预训练的瓶颈。

•IMM在多个数据集上实现了高质量生成，提升了内容创作者的效率。

硅基流动推出DeepSeek-R1&V3 API，价格暴降75%

•硅基流动的SiliconCloud平台推出DeepSeek-R1&V3 API批量推理功能，价格大幅下调。

•此功能帮助用户低成本处理大批量数据任务，适用于多场景。

•DeepSeek-V3批量推理价降50%，DeepSeek-R1限时降75%。

全国第二例AI版权案宣判，法院确认作者享有著作权

•江苏省苏州市常熟市人民法院宣判一起AI生成内容著作权纠纷案，确认作者享有著作权。

•法院认为作品的创作具有独创性，符合著作权法的保护要求。

•侵权方被判公开道歉并赔偿1万元，未提出上诉，判决生效。

网友在小红书上调侃AI模型，形成幽默职场闹剧

•网友们化身AI公司的“霸道总裁”，在群聊中调侃和指挥各种AI模型。

•这一活动由网友Komorebi发起，吸引了广泛参与，形成幽默的职场互动。

•尽管BotGroup平台功能尚显简陋，但其新奇玩法吸引了大量网友参与。

Domo AI发布i2v模型升级，提升稳定性与提示词理解能力

•Domo AI对其图像到视频（i2v）模型进行了重大升级，提升了生成速度和稳定性。

•新模型增强了对用户提示词的理解能力，支持多种风格转换。

•这一升级极大提高了内容创作者的创作效率和灵活性。