算子简报
2025-05-22 · 算子简报
百度飞桨PaddleOCR 3.0正式发布,OCR精度提升显著
•百度飞桨团队推出了PaddleOCR 3.0版本,提升了文字识别精度。
•新版本支持多语种、手写体识别及文档解析能力,增强了用户体验。
•新增对国产硬件的支持,推出PP-OCRv5、PP-StructureV3和PP-ChatOCRv4等核心功能。
昆仑万维发布天工超级智能体,AI Office革命来临
•天工超级智能体基于自研Deep Research技术,具备强大的多模态内容生成能力。
•其成本仅为OpenAI的40%,引发全球AI社区热议。
•该智能体支持一站式生成多种办公内容,提升工作效率。
OpenAI核心API新增MCP支持,简化智能体开发
•OpenAI的Responses API现已支持MCP协议,降低AI模型与外部工具集成的难度。
•新功能包括图像生成、代码解释器和优化的文件搜索能力。
•开发者可以通过少量代码连接外部工具,提升开发效率。
xAI推出Live Search API,提升AI实时信息获取能力
•xAI的Live Search API允许开发者实时搜索来自多种数据源的信息。
•该API目前处于免费公测阶段,旨在提升AI应用的动态信息处理能力。
•开发者可以利用Grok模型简化搜索逻辑和数据整合。
谷歌Sparkify实验产品上线,复杂知识秒变动画短片
•谷歌推出的Sparkify利用Gemini和Veo模型,将复杂知识点转化为动画短视频。
•该产品适用于教育、科普和内容创作领域,提升了用户理解效率。
•用户只需输入问题,即可生成直观的动画内容。
Mistral重返开源,发布高效代码AI模型Devstral
•Mistral AI推出全新开源语言模型Devstral,专为代理AI软件开发设计。
•该模型支持本地运行,展现了开源社区合作的力量。
•Devstral拥有2400万参数,适合复杂软件开发任务。
Video Ocean发布2K/4K HDR视频生成工具,性价比引爆全网
•潞晨科技推出AI视频生成工具Video Ocean,支持快速生成高质量大片。
•该工具提供多种特效与功能,价格低廉且完全免费。
•Video Ocean的推出掀起了创作热潮,吸引了广泛用户关注。
谷歌推出SynthID Detector,助力识别AI生成内容
•SynthID Detector旨在帮助用户检测内容是否由AI工具生成。
•该工具能自动扫描上传内容,查找并突出显示SynthID水印。
•目前该工具正面向早期测试者推出,未来将逐步推广至更多用户。
谷歌AI笔记工具NotebookLM迅猛崛起,月访问量增长56%
•NotebookLM以其创新功能如‘音频概览’和多语言支持受到广泛关注。
•该工具适用于学生、研究者及内容创作者,覆盖学术与娱乐领域。
•用户体验显著提升,打破了语言障碍。
硅基流动升级DeepSeek-R1等推理模型API,支持128K上下文长度
•硅基流动通过升级推理模型API,提升最大上下文长度至128K。
•新功能增强了模型的推理能力和输出质量,适用于多种应用场景。
•开发者可灵活调整模型性能,提升应用效果。
谷歌DeepMind发布AI音乐生成模型Lyria2,支持实时创作
•Lyria2具备高保真音质和实时交互功能,适用于专业音乐制作。
•用户可即时调整音乐风格、节奏等,激发创作灵感。
•该模型整合到Music AI Sandbox工具集,支持多种输入方式。
多模态大模型MMaDA问世,AI实现跨次元思考
•MMaDA模型由多所顶尖高校和企业联合研发,具备深度推理能力。
•该模型实现了文本、图像等多模态间的无缝切换,表现超越现有模型。
•其独特的统一扩散架构和混合长链式思考微调技术提升了AI的综合能力。
微软发布Web智能体Magentic-UI,专注复杂网页任务
•Magentic-UI以人为中心,强调透明性和可控性,提升用户体验。
•该工具通过网页浏览器实时协助用户完成复杂任务,增强工作效率。
•引入协作规划和行为防护功能,保障用户在自动化过程中的主导权。
Framer推出全新AI功能,设计新热潮来袭
•Framer在I/O2025期间推出AI功能套件,极大降低网站创建的复杂度。
•Wireframer通过自然语言提示快速生成网站布局,提升设计效率。
•Workshop生成交互组件,优化设计与开发间的沟通成本。