算子简报
2025-03-12 · 算子简报
阿里通义开源R1-Omni模型,提升多模态情感识别能力
•阿里通义实验室于3月11日开源了R1-Omni模型,标志着全模态模型的重大进展。
•该模型结合强化学习与可验证奖励,显著提升了多模态情感识别的推理能力。
•训练过程分为冷启动和RLVR两个阶段,确保模型在情感识别任务中的稳定性和效率。
OpenAI推出新工具,助力AI智能体执行任务
•OpenAI发布了一系列新工具,旨在简化AI智能体的开发流程。
•新工具包括Responses API、Agents SDK和计算机使用工具,标志着AI功能的重大升级。
•这些工具使AI能够从单纯回答问题转变为实际执行任务。
百度AI开源PP-TableMagic表格识别模型
•百度推出PP-TableMagic,一个开源的表格识别解决方案,标志着表格信息提取领域的重大进步。
•该技术通过多模型组网架构,克服了传统表格识别在复杂场景下的局限性。
•PP-TableMagic实现了高精度的端到端表格识别,并支持高定制化微调。
Manus与阿里云通义千问达成合作,共推国产AI智能体产品
•人工智能Agent产品新秀Manus与阿里云通义千问达成战略合作。
•双方将基于通义千问系列开源模型,实现Manus的全部功能。
•此举旨在为中国用户打造更具创造力的通用智能体产品。
MIDI技术可提取图片元素生成360度3D场景
•MIDI技术能够从单张2D图像生成360度3D场景,提升虚拟现实和游戏开发效率。
•通过智能分割和多实例同步扩散,MIDI高效构建细致的3D环境。
•该技术为室内设计等领域的内容创作带来了新的可能性。
视频编辑技术VideoPainter支持长视频自动识别修改
•VideoPainter是一款基于深度学习的视频编辑工具,能够通过提示词自动识别并修改视频内容。
•该工具特别适合长视频处理,提升了视频制作的效率。
•用户只需输入简短的指令,系统便能快速完成编辑。
开源版OpenAI Operator和Nanobrowser浏览器发布
•Nanobrowser是一款完全免费的开源工具,提供高效的网页自动化功能。
•用户可通过安装扩展程序并配置LLM API密钥,享受顶级的自动化体验。
•该工具确保数据安全和隐私,适合不同层次的用户。
Luma AI发布IMM技术,实现图像生成十倍提速
•Luma AI开源的Inductive Moment Matching (IMM)技术显著提升了图像生成速度和质量。
•该技术通过创新的预训练算法,减少生成步骤,突破生成式预训练的瓶颈。
•IMM在多个数据集上实现了高质量生成,提升了内容创作者的效率。
硅基流动推出DeepSeek-R1&V3 API,价格暴降75%
•硅基流动的SiliconCloud平台推出DeepSeek-R1&V3 API批量推理功能,价格大幅下调。
•此功能帮助用户低成本处理大批量数据任务,适用于多场景。
•DeepSeek-V3批量推理价降50%,DeepSeek-R1限时降75%。
全国第二例AI版权案宣判,法院确认作者享有著作权
•江苏省苏州市常熟市人民法院宣判一起AI生成内容著作权纠纷案,确认作者享有著作权。
•法院认为作品的创作具有独创性,符合著作权法的保护要求。
•侵权方被判公开道歉并赔偿1万元,未提出上诉,判决生效。
网友在小红书上调侃AI模型,形成幽默职场闹剧
•网友们化身AI公司的“霸道总裁”,在群聊中调侃和指挥各种AI模型。
•这一活动由网友Komorebi发起,吸引了广泛参与,形成幽默的职场互动。
•尽管BotGroup平台功能尚显简陋,但其新奇玩法吸引了大量网友参与。
Domo AI发布i2v模型升级,提升稳定性与提示词理解能力
•Domo AI对其图像到视频(i2v)模型进行了重大升级,提升了生成速度和稳定性。
•新模型增强了对用户提示词的理解能力,支持多种风格转换。
•这一升级极大提高了内容创作者的创作效率和灵活性。