算子简报

2025-03-18 · 算子简报

1

腾讯推出五款开源3D模型,生成速度提升至30秒

腾讯混元发布了五个全新开源3D生成模型,基于Hunyuan3D-2.0技术。

新模型通过Turbo系列实现了生成速度的显著提升,缩短至30秒内完成。

用户只需上传少量图片,即可快速生成高质量的3D模型,降低制作成本。

2

Anthropic重磅升级MCP传输机制,支持更灵活的HTTP

Anthropic对Model Context Protocol(MCP)进行了重要更新,推出Streamable HTTP传输方式。

新机制允许更高效的双向通信,取代了传统的HTTP+SSE方案。

此升级简化了部署流程,并提升了系统的可扩展性。

详情链接
3

生数科技Vidu计划推出首部海外AI原创科幻动漫剧集

生数科技与Aura Productions达成战略合作,计划推出50集短篇科幻动漫系列。

该系列将利用Vidu的先进视频生成技术,提升制作效率和质量。

这一合作预示着未来动漫创作将更加智能化和高效化。

4

谷歌云发布高清语音模型Chirp 3,支持248种声音

谷歌云在伦敦推出了高清语音模型Chirp 3,旨在为开发者提供强大的语音合成工具。

该模型支持248种不同的声音和31种语言,适用于多种应用场景。

谷歌限制了语音克隆功能的访问权限,以确保负责任的使用和数据隐私。

详情链接
5

马斯克旗下xAI收购视频生成初创公司Hotshot,AI视频竞争加剧

xAI收购了视频生成AI初创公司Hotshot,进一步扩展其在多模态AI技术领域的布局。

Hotshot专注于AI视频生成,利用600万个视频片段进行训练,提升了模型理解视频内容的能力。

此次收购标志着马斯克在AI技术领域的进一步布局,预示着AI视频生成技术将迎来新突破。

6

Roblox开源Cube3D,首个基础AI模型实现3D对象生成

Roblox推出并开源了Cube3D,这是其首个用于生成3D对象的基础AI模型。

该模型通过创新的训练方法,将3D对象标记化,能够快速生成完整的3D形状。

Roblox计划将Cube3D发展为多模态模型,未来将支持文本、图像和视频输入。

详情链接
7

Zoom AI助手AI Companion功能升级,提升用户体验

Zoom宣布AI助手Zoom AI Companion的新一轮功能升级,提升视频会议互动体验。

新功能包括自动识别和完成待办事项的Zoom Tasks和转录线下对话的新语音录音器。

定制AI助手功能将于4月推出,用户可根据需求定制功能。

详情链接
8

Mistral发布新开源模型Mistral Small 3.1,参数超越GPT-4o Mini

Mistral AI发布了开源模型Mistral Small 3.1,具备240亿参数,性能可与谷歌和OpenAI的产品相媲美。

该模型支持128k tokens的上下文窗口,处理速度达到每秒150个tokens。

Mistral的开源策略旨在吸引全球开发者,推动创新,强调其在AI领域的绿色和可持续发展。

详情链接
9

字节推出LCT技术,提升AI视频生成叙事能力

字节推出长上下文调整(LCT)技术,提升AI生成视频的叙事能力。

LCT技术使AI能够像电影导演一样自由切换镜头,构建更连贯的故事场景。

通过引入全注意力机制和交错的3D位置嵌入,LCT解决了多镜头生成中的视觉一致性和时间动态问题。

详情链接
10

OLMo 2 32B发布,挑战GPT-3.5 Turbo

OLMo 2 32B是艾伦人工智能研究所发布的最新大型语言模型,具备320亿参数。

该模型在多项基准测试中超越了GPT-3.5 Turbo和GPT-4o Mini,展现出卓越的性能。

OLMo 2 32B采用完全开源的特性,促进全球研究合作,展现出高效的AI开发潜力。

详情链接