算子简报

2025-05-15 · 算子简报

1

阿里通义万相推出首个开源视频编辑模型VACE

阿里通义万相发布了VACE,这是首个开源的视频编辑统一模型。

VACE支持多种分辨率和任务,提供一站式视频创作体验。

该模型通过多模态输入机制实现高效灵活的视频编辑。

2

OpenAI发布升级版ChatGPT,增强编码能力

OpenAI正式推出GPT-4.1,显著提升了编码能力和指令执行体验。

新版本还优化了用户体验和多模态支持,巩固了其在AI领域的领先地位。

GPT-4.1mini作为轻量级版本,适用于资源受限设备。

3

Stability AI发布超轻量文字转语音模型

Stability AI推出341M参数的超轻量文字转语音模型,支持手机本地运行。

该模型在H100 GPU上可在75毫秒内生成12秒音频,手机CPU上生成音频仅需7秒。

模型的高效性和多样性使其在音频生成领域表现突出。

4

Poe报告显示可灵大模型视频生成市场份额领先

Poe的最新报告指出,可灵大模型在视频生成领域占据约30%的市场份额。

该模型在文生视频领域表现突出,领先于Runway等竞争者。

可灵2.0模型在发布三周内即占据21%的使用比例。

5

微软WizardLM团队整体加入腾讯

微软的WizardLM团队已整体跳槽至腾讯,加入混元大模型研发体系。

此举标志着腾讯在大模型领域的进一步发力,带来多项技术突破。

团队通过开源模型展示了其研发实力,增强了腾讯的竞争力。

6

腾讯混元图像2.0即将发布

腾讯宣布混元图像2.0将于5月16日全新发布。

新版本将以‘更智能、更开放、更中国’为核心理念,推动AI视觉领域的发展。

该更新标志着腾讯在AI视觉领域的重要突破。

7

上海启动人工智能标识生态联盟

上海市成立人工智能标识生态联盟,旨在推动标识技术发展。

小红书和MiniMax等企业成为首批入盟成员,参与标识工作实践。

联盟将通过政策解读和企业合作,提升AI生成内容的透明度和安全性。

8

Lightricks发布LTX-Video-13B精炼模型

Lightricks推出LTX-Video-13B精炼模型,10秒内生成高清AI视频。

该模型结合多尺度渲染技术和高效量化优化,速度与质量实现双飞跃。

模型的开源特性使其在低显存设备上也能流畅运行。

9

谷歌发布AlphaEvolve,提升AI训练效率

谷歌DeepMind推出AlphaEvolve,结合Gemini大语言模型与进化算法。

该AI编码代理在多个领域展现强大的自优化能力,包括数据中心调度和芯片设计。

AlphaEvolve的训练速度提升32.5%,优化了AI训练效率。

10

腾讯元宝浏览器插件上线Chrome

腾讯元宝浏览器插件的尝鲜版已上线Chrome平台。

插件提供悬浮球、常驻侧边栏和划词工具栏等功能,提升用户的网页浏览体验。

新功能旨在提高信息处理效率,方便用户获取信息。