算子简报

2025-05-21 · 算子简报

谷歌推出全新AI Ultra订阅计划，月费249.99美元

•谷歌推出了AI Ultra订阅计划，提供最高级别的AI模型和高级功能，适合创意专业人士。

•该计划包含最新的Gemini应用、Flow工具以及30TB的存储空间。

•订阅费用为每月249.99美元，旨在为用户提供最佳的AI体验。

详情链接

腾讯混元全面升级模型矩阵，推出新推理模型

•腾讯混元宣布其模型矩阵全面升级，推出视觉推理模型T1-Vision和语音通话模型混元Voice。

•新模型在国际评测中表现优异，推动了多模态技术的发展。

•腾讯混元还致力于开源技术的推广，促进行业创新。

美图与阿里巴巴达成战略合作，获得2.5亿美元投资

•美图与阿里巴巴达成战略合作，阿里巴巴通过可转债形式投资2.5亿美元。

•双方将在电商、AI技术和云计算等领域展开深度合作。

•此合作旨在提升商家的运营效率和技术创新能力。

火山引擎发布豆包·语音播客模型

•火山引擎推出豆包·语音播客模型，实现文本到播客的快速转化。

•该模型提供高效、互动性强的创作体验，适合内容创作者使用。

•通过流式模型构建，提升了播客内容的生成效率。

百度文心X1 Turbo获得信通院最高评级

•百度文心大模型X1 Turbo在信通院评估中获得国内首个“4+级”最高评级。

•该模型在逻辑推理和代码推理方面表现突出，展示出卓越的技术实力。

•文心X1 Turbo基于文心大模型4.5升级，性能更强、成本更低。

谷歌发布Flow AI剪辑工具，简化视频创作

•谷歌推出了全新的AI剪辑工具Flow，集成了Veo3、Imagen4和Gemini三大AI模型。

•该工具通过自然语言提示和模块化工作流简化视频创作过程。

•Flow为专业人士和初学者提供电影级视觉叙事能力。

详情链接

谷歌Veo3震撼发布，支持4K画质和音视频一体生成

•谷歌发布的Veo3视频生成模型支持音视频一体化生成，具备超高分辨率。

•该模型强调了创作者的安全性与责任性，适合专业和教育领域使用。

•Veo3能够捕捉细微描述，满足多种风格需求。

谷歌推出Imagen 4图像模型，重塑AI创作

•谷歌推出了最新一代图像生成模型Imagen 4，支持2K画质与精准文本渲染。

•该模型为创作者提供强大工具，支持多种艺术风格。

•Imagen 4在图像生成和编辑任务中表现出色，适应复杂的创作需求。

谷歌发布Gemini 2.5 Pro Deep Think，提升AI推理能力

•谷歌DeepMind推出Gemini 2.5 Pro Deep Think模式，采用并行推理技术。

•该模式显著提升了数学、编码和多模态推理能力。

•开发者可灵活调整推理质量和成本，适应不同场景需求。

谷歌虚拟试衣间上线，提升在线购物体验

•谷歌推出AI虚拟试衣工具，用户上传照片即可生成逼真的穿搭效果图。

•该工具支持多条件搜索、比价分析和自动下单，简化购物流程。

•极大提升了在线购物的个性化和便利性。

谷歌公测AI编码助手Jules，挑战OpenAI Codex

•谷歌推出的AI编码助手Jules进入全球公测阶段，基于Gemini 2.5 Pro模型。

•该助手通过异步任务处理和GitHub集成提升开发者效率。

•透明工作流和免费配额吸引用户，未来扩展潜力巨大。

详情链接

苹果计划在iOS 19中开放AI模型，促进应用创新

•苹果计划在iOS 19中向第三方开发者开放AI模型，推动应用创新。

•初期将开放能在本地设备上运行的小型AI模型，提升硬件吸引力。

•开发者可利用Apple Intelligence创建新功能，简化开发流程。

京东云推出五大AI营销产品，助力商家提升销售效率

•京东云宣布五大AI营销产品限时免费，帮助商家提升销售效率。

•包括数字人直播、商家客服智能体、商品图生成服务等。

•这些工具旨在优化商家的运营能力和降低直播成本。

字节跳动开源多模态模型BAGEL，推动图文生成与编辑

•字节跳动发布了名为BAGEL的开源多模态基础模型，拥有70亿个活跃参数。

•该模型在多模态理解、文本到图像生成、图像编辑等方面表现出色。

•BAGEL采用混合变换器专家架构，通过多模态预训练实现持续性能提升。

英伟达推出新型模型Cosmos-Reason1，提升AI物理理解能力

•英伟达发布的Cosmos-Reason1系列模型，通过物理AI监督微调和强化学习提升能力。

•该模型在物理常识和具身推理基准测试中表现优异。

•为机器人和自动驾驶领域带来新的可能性。