算子简报

2025-05-22 · 算子简报

1

百度飞桨PaddleOCR 3.0正式发布,OCR精度提升显著

百度飞桨团队推出了PaddleOCR 3.0版本,提升了文字识别精度。

新版本支持多语种、手写体识别及文档解析能力,增强了用户体验。

新增对国产硬件的支持,推出PP-OCRv5、PP-StructureV3和PP-ChatOCRv4等核心功能。

详情链接
2

昆仑万维发布天工超级智能体,AI Office革命来临

天工超级智能体基于自研Deep Research技术,具备强大的多模态内容生成能力。

其成本仅为OpenAI的40%,引发全球AI社区热议。

该智能体支持一站式生成多种办公内容,提升工作效率。

详情链接
3

OpenAI核心API新增MCP支持,简化智能体开发

OpenAI的Responses API现已支持MCP协议,降低AI模型与外部工具集成的难度。

新功能包括图像生成、代码解释器和优化的文件搜索能力。

开发者可以通过少量代码连接外部工具,提升开发效率。

详情链接
4

xAI推出Live Search API,提升AI实时信息获取能力

xAI的Live Search API允许开发者实时搜索来自多种数据源的信息。

该API目前处于免费公测阶段,旨在提升AI应用的动态信息处理能力。

开发者可以利用Grok模型简化搜索逻辑和数据整合。

详情链接
5

谷歌Sparkify实验产品上线,复杂知识秒变动画短片

谷歌推出的Sparkify利用Gemini和Veo模型,将复杂知识点转化为动画短视频。

该产品适用于教育、科普和内容创作领域,提升了用户理解效率。

用户只需输入问题,即可生成直观的动画内容。

详情链接
6

Mistral重返开源,发布高效代码AI模型Devstral

Mistral AI推出全新开源语言模型Devstral,专为代理AI软件开发设计。

该模型支持本地运行,展现了开源社区合作的力量。

Devstral拥有2400万参数,适合复杂软件开发任务。

详情链接
7

Video Ocean发布2K/4K HDR视频生成工具,性价比引爆全网

潞晨科技推出AI视频生成工具Video Ocean,支持快速生成高质量大片。

该工具提供多种特效与功能,价格低廉且完全免费。

Video Ocean的推出掀起了创作热潮,吸引了广泛用户关注。

详情链接
8

谷歌推出SynthID Detector,助力识别AI生成内容

SynthID Detector旨在帮助用户检测内容是否由AI工具生成。

该工具能自动扫描上传内容,查找并突出显示SynthID水印。

目前该工具正面向早期测试者推出,未来将逐步推广至更多用户。

详情链接
9

谷歌AI笔记工具NotebookLM迅猛崛起,月访问量增长56%

NotebookLM以其创新功能如‘音频概览’和多语言支持受到广泛关注。

该工具适用于学生、研究者及内容创作者,覆盖学术与娱乐领域。

用户体验显著提升,打破了语言障碍。

详情链接
10

硅基流动升级DeepSeek-R1等推理模型API,支持128K上下文长度

硅基流动通过升级推理模型API,提升最大上下文长度至128K。

新功能增强了模型的推理能力和输出质量,适用于多种应用场景。

开发者可灵活调整模型性能,提升应用效果。

详情链接
11

谷歌DeepMind发布AI音乐生成模型Lyria2,支持实时创作

Lyria2具备高保真音质和实时交互功能,适用于专业音乐制作。

用户可即时调整音乐风格、节奏等,激发创作灵感。

该模型整合到Music AI Sandbox工具集,支持多种输入方式。

详情链接
12

多模态大模型MMaDA问世,AI实现跨次元思考

MMaDA模型由多所顶尖高校和企业联合研发,具备深度推理能力。

该模型实现了文本、图像等多模态间的无缝切换,表现超越现有模型。

其独特的统一扩散架构和混合长链式思考微调技术提升了AI的综合能力。

详情链接
13

微软发布Web智能体Magentic-UI,专注复杂网页任务

Magentic-UI以人为中心,强调透明性和可控性,提升用户体验。

该工具通过网页浏览器实时协助用户完成复杂任务,增强工作效率。

引入协作规划和行为防护功能,保障用户在自动化过程中的主导权。

详情链接
14

Framer推出全新AI功能,设计新热潮来袭

Framer在I/O2025期间推出AI功能套件,极大降低网站创建的复杂度。

Wireframer通过自然语言提示快速生成网站布局,提升设计效率。

Workshop生成交互组件,优化设计与开发间的沟通成本。

详情链接