算子简报
2025-04-02 · 算子简报
阿里通义千问 Qwen2.5-Omni 荣登全球开源模型榜首
•阿里巴巴的Qwen2.5-Omni凭借卓越性能和多模态能力,成为全球开源模型的领军者。
•该模型在Hugging Face发布的最新榜单中位居第一,展现出强大的技术实力。
•阿里通义千问已开源200款模型,推动AI技术的普及和应用。
MiniMax Audio推出支持20万字符的Speech-02语音模型
•MiniMax Audio的Speech-02系列语音模型支持超过30种语言,具有99%的人声相似度。
•新模型解决了音频播放中的节奏故障问题,确保了流畅的听感。
•新增的“Read Anything”功能允许用户上传文件或粘贴URL,随时收听各类内容。
ElevenLabs发布全球首款犬类AI文本转语音模型
•ElevenLabs推出的“Text To Bark”模型能够将文字转化为高度逼真的狗吠声。
•该技术声称95%的狗无法分辨声音的来源,为人类与宠物之间的沟通提供了新可能性。
•用户可选择犬种并调整吠声的语气和节奏,适应不同场景需求。
腾讯元宝更新:多图上传与智能处理功能上线
•腾讯元宝的最新更新允许用户一次性上传多达10张图片,提升图像识别效率。
•新功能结合混元多模态理解能力,提供连贯的内容分析与文案生成。
•用户可以快速提炼信息,生成文案,甚至将草图转化为网页demo。
EasyControl_Ghibli模型上线,免费生成吉卜力风格图像
•EasyControl_Ghibli模型为用户提供了一个免费的工具,轻松生成吉卜力风格的图像。
•该模型突破了传统AI图像生成的限制,让普通用户也能参与到艺术创作中。
•开源特性和易用性为教育、娱乐和个人表达开辟了新的可能性。
飞桨3.0正式发布,支持多款大模型
•飞桨3.0引入五大核心技术创新,支持文心4.5等大模型。
•新框架实现跨芯片的无缝迁移,硬件适配成本降低了80%。
•通过优化的DeepSeek-R1单机部署,吞吐量提升高达一倍。
Krea整合Gemini功能,提升创作体验
•Krea与Google Gemini的深度整合,推出文字生成图像及图像编辑功能。
•用户可通过自然语言描述快速生成和编辑图像,降低创作门槛。
•此次更新有望缩短创意产业从概念到成品的周期,推动团队创作效率。
腾讯发布GeometryCrafter,提升视频内容理解能力
•GeometryCrafter模型在开放世界视频的几何估计方面取得重大突破。
•该模型利用扩散先验技术,成功实现动态视频内容的深度理解和处理。
•能够在无需额外信息的情况下,提取并生成一致的几何信息,填补行业空白。
Meta推出MoCha系统,提升动画角色生成能力
•MoCha系统通过文本描述生成全身动画角色,具备自然动作和同步语音的能力。
•该技术标志着内容创作效率和表现力的显著提升,应用潜力广泛。
•通过创新的“语音-视频窗口注意力”机制,解决了音频与视频生成中的挑战。
OpenAI推出AI学院,提供免费学习资源
•OpenAI学院旨在为全球用户提供免费且高质量的人工智能学习资源。
•平台涵盖从基础知识到高级技能的多种课程,适合自学者、教育工作者和开发人员。
•该学院标志着OpenAI在教育和知识传播领域的积极角色,旨在降低AI学习的门槛。