算子简报
2025-05-19 · 算子简报
B站推出AniSora:开源动漫视频生成模型
•B站团队发布了AniSora,一个开源动漫视频生成模型,支持多种风格的动画创作。
•该模型允许用户一键生成多种类型的动漫视频,填补了动漫视频生成领域的技术空白。
•AniSora的功能包括图像生成视频、帧插值和局部图像引导,提升了生成质量。
OpenAI推出全新编程智能体Codex
•OpenAI发布了Codex,一个全新的编程智能体,能够大幅缩短开发时间。
•Codex与GitHub无缝集成,支持多任务并行处理,极大提升开发者效率。
•该智能体通过强化学习生成符合人类偏好的代码,展现了强大的自我委派能力。
Google搜索推出AI Mode实验,探索智能问答新体验
•Google推出了名为'AI Mode'的实验性功能,提供文本、语音和图像提问的智能问答体验。
•该功能鼓励用户反馈,以持续优化服务,提升用户体验。
•AI Mode旨在通过多模态交互,提供更智能的问答解决方案。
ChatGPT整合MCP协议,助力企业接入多样AI服务
•ChatGPT即将支持MCP协议,允许与第三方AI服务无缝对接,提供个性化用户体验。
•企业可通过此协议优化工作流程,提升效率和决策质量。
•MCP协议旨在统一大语言模型与外部系统的互动方式,类似于AI应用的“USB-C接口”。
阿里通义实验室推出ZeroSearch,提升大模型自我搜索能力
•ZeroSearch是一种新框架,通过强化学习和少量标注数据,使大语言模型能够模拟搜索引擎。
•该技术提升了检索和推理能力,减少对真实搜索引擎的依赖,降低训练成本。
•ZeroSearch在问答数据集测试中表现优于传统方法,显示出显著优势。
Stability AI与Arm合作推出手机级音频生成AI
•Stability AI与Arm联合发布了稳定音频开放小型模型,能够在7秒内生成11秒高质量立体声音频。
•该模型优化后可在移动设备上流畅运行,适合消费级硬件。
•通过对抗相对对比技术,大幅减少参数量,提升音频生成效率。
Qwen发布全新偏好建模模型系列WorldPM
•Qwen团队推出了WorldPM系列模型,包括WorldPM-72B及其衍生版本,专注于偏好建模。
•该系列模型通过大规模训练,实现了偏好建模的突破,为开发者提供高效优化路径。
•WorldPM的开源发布降低了技术门槛,助力全球开发者提升模型优化效率。
OpenAI揭秘GPT-5,整合多款产品
•OpenAI宣布GPT-5将整合Codex、Operator、Deep Research和Memory等多款产品。
•这一整合旨在简化用户操作流程,提升编程效率。
•Codex的编程效率提升了三倍,特别适合解决琐碎问题的开发者。
ListenHub:颠覆播客体验的AI生成工具上线
•ListenHub是一款基于AI技术的播客生成工具,支持中文和英文,提供个性化播客体验。
•该工具以高效的生成速度和友好的用户界面受到欢迎,适合普通用户及内容创作者。
•ListenHub提供免费和高级会员服务,注重移动端体验。
QQ浏览器升级为AI浏览器,推出QBot新功能
•QQ浏览器升级为AI浏览器,并推出QBot,带来更智能的浏览体验。
•新功能包括搜索、阅读、翻译、写作及办公辅助等,提升用户效率。
•QBot支持多模态提问,能精准回答各类问题,提供24/7智能陪伴。
数学建模AI助手MathModelAgent正式发布
•MathModelAgent是一款专为数学建模设计的智能工具,自动完成全流程。
•该工具展现了AI在学术与技术领域的深远潜力,支持问题分析、模型构建、代码编写和论文撰写。
•MathModelAgent帮助用户快速解析数学问题并生成逻辑清晰的数学模型。
GenSpark推出全球首个Agentic AI下载代理
•GenSpark推出的Agentic Download Agent工具实现了文件管理和信息处理的自动化与智能化。
•该工具支持通过自然语言指令一键完成文件搜索、下载和整理,大幅提升效率。
•Agentic Download Agent具备强大的自动化与智能化特性,支持批量处理和智能整理。
谷歌NotebookLM即将推出Sparks视频概览
•谷歌旗下的NotebookLM计划推出‘Sparks’功能,将文档、笔记等转化为短视频。
•该功能结合Gemini2.5和Deep Research,实现从研究到呈现的端到端解决方案。
•Sparks功能中10%内容由AI生成,提升内容创作效率。