算子简报

2025-04-17 · 算子简报

1

OpenAI推出新一代多模态推理模型o4-mini与o3

OpenAI在技术直播中发布了o4-mini和满血版o3,这两款模型具备同时处理文本、图像和音频的能力。

o4-mini在各项测试中表现优异,准确率高于o3,并在编程竞赛中名列前茅。

这两款模型能够自动调用外部工具进行复杂任务的处理,提升了多模态应用的实用性。

2

微信推出首个AI助手“元宝”,用户可直接添加

腾讯推出的“元宝”是首个在微信平台上运行的AI助手,用户可以直接在微信中搜索并添加为好友。

元宝支持解析微信公众号文章、图片和文档,并能够进行智能互动,回答用户的进一步提问。

该助手具备隐私保护功能,支持证件照自动打码,提升用户体验。

3

字节跳动发布豆包1.5深度思考模型,展现多模态能力

字节跳动在火山引擎AI创新巡展上发布了豆包1.5深度思考模型,展示其在数学、编程和科学推理等领域的能力。

该模型采用MoE架构,推理成本低,参数配置优越,适合多种应用场景。

豆包1.5模型在专业领域推理任务中表现优异,接近全球第一梯队水平。

4

月之暗面Kimi推出开源数学定理证明模型Kimina-Prover

Kimi技术团队发布了Kimina-Prover的预览版,展现出在形式化定理证明领域的出色性能。

该模型结合大规模强化学习与形式化推理,显著提升了推理能力和样本效率,达到了80.7%的通过率。

Kimina-Prover的可解释性强,用户可以查看推导过程,为理解模型行为提供便利。

5

OpenAI推出Codex CLI,五小时内破5000颗星

OpenAI发布了Codex CLI,这是一款轻量级的代码智能体工具,发布后迅速获得关注。

Codex CLI具备自动生成、运行代码、重构和测试等功能,极大提升了开发者的工作效率。

该工具在发布后仅五小时便突破了5000颗星的评价,预计当天将突破1万颗星。

6

谷歌Gemini Live功能全面开放,安卓用户迎新体验

谷歌宣布将Gemini应用中的Gemini Live功能免费向所有安卓用户开放,之前仅限于特定用户。

Gemini Live能够实时识别摄像头和屏幕上的内容,为用户提供即时反馈和信息。

该功能极大增强了用户的互动体验,提升了应用的实用性。

7

OpenAI拟以30亿美元收购AI编程工具Windsurf

OpenAI正在与AI编程工具Windsurf展开收购谈判,交易金额约为30亿美元。

Windsurf是一款受欢迎的AI编程助手,能够生成和解释代码,已获得超过2亿美元的融资。

此次收购将增强OpenAI的编程能力,帮助其在竞争激烈的市场中占据领先地位。

8

JetBrains推出编码智能体Junie AI,助力编程与调试

JetBrains宣布其新编码智能体Junie AI已达生产就绪状态,旨在帮助开发者高效编写与调试代码。

Junie AI的推出标志着JetBrains在AI工具领域的重大进展,支持最新的AI模型。

更新的AI助手新增多文件编辑功能,满足不同开发者的需求。

9

Reachy 2开源人形机器人正式开售

Pollen Robotics推出的Reachy 2是一款开源人形机器人,售价7万美元。

该机器人已在多所顶级大学和研究机构中得到应用,具备模块化设计和强大的AI驱动能力。

Reachy 2适用于多种研究和教育场景,展现出广泛的应用潜力。

10

上海人工智能实验室推出升级版多模态大模型“书生・万象3.0”

上海人工智能实验室推出的“书生・万象3.0”是一个全新的多模态大模型,具备更强的文本和多模态输入处理能力。

该模型在性能和用户体验上都有显著提升,响应速度更快,理解能力更强。

书生・万象3.0能够满足用户多样化的需求,推动AI技术的发展。

11

豆包深度思考和文生图3.0模型正式开放API

豆包1.5·深度思考模型和豆包文生图模型3.0正式通过火山引擎开放API,供开发者和企业客户使用。

这两款模型在推理和图像生成任务上表现卓越,推动了AI技术的应用与发展。

开放API为企业客户提供了更高效、通用的推理与图像生成能力,促进了行业创新。