算子简报

2025-05-22 · 算子简报

百度飞桨PaddleOCR 3.0正式发布，OCR精度提升显著

•百度飞桨团队推出了PaddleOCR 3.0版本，提升了文字识别精度。

•新版本支持多语种、手写体识别及文档解析能力，增强了用户体验。

•新增对国产硬件的支持，推出PP-OCRv5、PP-StructureV3和PP-ChatOCRv4等核心功能。

详情链接

昆仑万维发布天工超级智能体，AI Office革命来临

•天工超级智能体基于自研Deep Research技术，具备强大的多模态内容生成能力。

•其成本仅为OpenAI的40%，引发全球AI社区热议。

•该智能体支持一站式生成多种办公内容，提升工作效率。

详情链接

OpenAI核心API新增MCP支持，简化智能体开发

•OpenAI的Responses API现已支持MCP协议，降低AI模型与外部工具集成的难度。

•新功能包括图像生成、代码解释器和优化的文件搜索能力。

•开发者可以通过少量代码连接外部工具，提升开发效率。

详情链接

xAI推出Live Search API，提升AI实时信息获取能力

•xAI的Live Search API允许开发者实时搜索来自多种数据源的信息。

•该API目前处于免费公测阶段，旨在提升AI应用的动态信息处理能力。

•开发者可以利用Grok模型简化搜索逻辑和数据整合。

详情链接

谷歌Sparkify实验产品上线，复杂知识秒变动画短片

•谷歌推出的Sparkify利用Gemini和Veo模型，将复杂知识点转化为动画短视频。

•该产品适用于教育、科普和内容创作领域，提升了用户理解效率。

•用户只需输入问题，即可生成直观的动画内容。

详情链接

Mistral重返开源，发布高效代码AI模型Devstral

•Mistral AI推出全新开源语言模型Devstral，专为代理AI软件开发设计。

•该模型支持本地运行，展现了开源社区合作的力量。

•Devstral拥有2400万参数，适合复杂软件开发任务。

详情链接

Video Ocean发布2K/4K HDR视频生成工具，性价比引爆全网

•潞晨科技推出AI视频生成工具Video Ocean，支持快速生成高质量大片。

•该工具提供多种特效与功能，价格低廉且完全免费。

•Video Ocean的推出掀起了创作热潮，吸引了广泛用户关注。

详情链接

谷歌推出SynthID Detector，助力识别AI生成内容

•SynthID Detector旨在帮助用户检测内容是否由AI工具生成。

•该工具能自动扫描上传内容，查找并突出显示SynthID水印。

•目前该工具正面向早期测试者推出，未来将逐步推广至更多用户。

详情链接

谷歌AI笔记工具NotebookLM迅猛崛起，月访问量增长56%

•NotebookLM以其创新功能如‘音频概览’和多语言支持受到广泛关注。

•该工具适用于学生、研究者及内容创作者，覆盖学术与娱乐领域。

•用户体验显著提升，打破了语言障碍。

详情链接

硅基流动升级DeepSeek-R1等推理模型API，支持128K上下文长度

•硅基流动通过升级推理模型API，提升最大上下文长度至128K。

•新功能增强了模型的推理能力和输出质量，适用于多种应用场景。

•开发者可灵活调整模型性能，提升应用效果。

详情链接

谷歌DeepMind发布AI音乐生成模型Lyria2，支持实时创作

•Lyria2具备高保真音质和实时交互功能，适用于专业音乐制作。

•用户可即时调整音乐风格、节奏等，激发创作灵感。

•该模型整合到Music AI Sandbox工具集，支持多种输入方式。

详情链接

多模态大模型MMaDA问世，AI实现跨次元思考

•MMaDA模型由多所顶尖高校和企业联合研发，具备深度推理能力。

•该模型实现了文本、图像等多模态间的无缝切换，表现超越现有模型。

•其独特的统一扩散架构和混合长链式思考微调技术提升了AI的综合能力。

详情链接

微软发布Web智能体Magentic-UI，专注复杂网页任务

•Magentic-UI以人为中心，强调透明性和可控性，提升用户体验。

•该工具通过网页浏览器实时协助用户完成复杂任务，增强工作效率。

•引入协作规划和行为防护功能，保障用户在自动化过程中的主导权。

详情链接

Framer推出全新AI功能，设计新热潮来袭

•Framer在I/O2025期间推出AI功能套件，极大降低网站创建的复杂度。

•Wireframer通过自然语言提示快速生成网站布局，提升设计效率。

•Workshop生成交互组件，优化设计与开发间的沟通成本。

详情链接