算子简报
2025-03-18 · 算子简报
腾讯推出五款开源3D模型,生成速度提升至30秒
•腾讯混元发布了五个全新开源3D生成模型,基于Hunyuan3D-2.0技术。
•新模型通过Turbo系列实现了生成速度的显著提升,缩短至30秒内完成。
•用户只需上传少量图片,即可快速生成高质量的3D模型,降低制作成本。
Anthropic重磅升级MCP传输机制,支持更灵活的HTTP
•Anthropic对Model Context Protocol(MCP)进行了重要更新,推出Streamable HTTP传输方式。
•新机制允许更高效的双向通信,取代了传统的HTTP+SSE方案。
•此升级简化了部署流程,并提升了系统的可扩展性。
生数科技Vidu计划推出首部海外AI原创科幻动漫剧集
•生数科技与Aura Productions达成战略合作,计划推出50集短篇科幻动漫系列。
•该系列将利用Vidu的先进视频生成技术,提升制作效率和质量。
•这一合作预示着未来动漫创作将更加智能化和高效化。
谷歌云发布高清语音模型Chirp 3,支持248种声音
•谷歌云在伦敦推出了高清语音模型Chirp 3,旨在为开发者提供强大的语音合成工具。
•该模型支持248种不同的声音和31种语言,适用于多种应用场景。
•谷歌限制了语音克隆功能的访问权限,以确保负责任的使用和数据隐私。
马斯克旗下xAI收购视频生成初创公司Hotshot,AI视频竞争加剧
•xAI收购了视频生成AI初创公司Hotshot,进一步扩展其在多模态AI技术领域的布局。
•Hotshot专注于AI视频生成,利用600万个视频片段进行训练,提升了模型理解视频内容的能力。
•此次收购标志着马斯克在AI技术领域的进一步布局,预示着AI视频生成技术将迎来新突破。
Roblox开源Cube3D,首个基础AI模型实现3D对象生成
•Roblox推出并开源了Cube3D,这是其首个用于生成3D对象的基础AI模型。
•该模型通过创新的训练方法,将3D对象标记化,能够快速生成完整的3D形状。
•Roblox计划将Cube3D发展为多模态模型,未来将支持文本、图像和视频输入。
Zoom AI助手AI Companion功能升级,提升用户体验
•Zoom宣布AI助手Zoom AI Companion的新一轮功能升级,提升视频会议互动体验。
•新功能包括自动识别和完成待办事项的Zoom Tasks和转录线下对话的新语音录音器。
•定制AI助手功能将于4月推出,用户可根据需求定制功能。
Mistral发布新开源模型Mistral Small 3.1,参数超越GPT-4o Mini
•Mistral AI发布了开源模型Mistral Small 3.1,具备240亿参数,性能可与谷歌和OpenAI的产品相媲美。
•该模型支持128k tokens的上下文窗口,处理速度达到每秒150个tokens。
•Mistral的开源策略旨在吸引全球开发者,推动创新,强调其在AI领域的绿色和可持续发展。
字节推出LCT技术,提升AI视频生成叙事能力
•字节推出长上下文调整(LCT)技术,提升AI生成视频的叙事能力。
•LCT技术使AI能够像电影导演一样自由切换镜头,构建更连贯的故事场景。
•通过引入全注意力机制和交错的3D位置嵌入,LCT解决了多镜头生成中的视觉一致性和时间动态问题。
OLMo 2 32B发布,挑战GPT-3.5 Turbo
•OLMo 2 32B是艾伦人工智能研究所发布的最新大型语言模型,具备320亿参数。
•该模型在多项基准测试中超越了GPT-3.5 Turbo和GPT-4o Mini,展现出卓越的性能。
•OLMo 2 32B采用完全开源的特性,促进全球研究合作,展现出高效的AI开发潜力。