算子简报

2025-04-14 · 算子简报

Kimi发布开源视觉语言模型Kimi-VL，超越GPT-4o

•Kimi推出的Kimi-VL和Kimi-VL-Thinking模型在多个基准测试中超越了GPT-4o。

•该模型采用轻量级的MoE架构，参数仅有30亿，展现出高效的运行能力。

•Kimi-VL系列在数学推理和高分辨率图像处理等领域表现突出，支持超长上下文理解。

讯飞星辰Agent开发平台全面支持MCP

•科大讯飞宣布其讯飞星辰Agent开发平台已全面支持MCP，允许用户轻松配置和调用行业领先的MCP Server。

•该平台支持一键发布自定义MCP Server，推动AI应用的中间层标准化。

•首批支持的MCP Server覆盖多个行业，助力AI应用的快速发展。

昆仑万维推出Skywork-OR1系列模型，数学代码能力突出

•昆仑万维发布的Skywork-OR1系列模型在数学和代码领域展现出卓越的推理能力。

•该系列包含三款高性能模型，特别是在竞赛编程任务中表现尤为突出。

•开源的Skywork-OR1系列将为相关领域的研究和应用提供强有力的支持。

字节跳动推出Seed-Thinking-v1.5，成为推理AI竞赛新力量

•字节跳动的新型大语言模型Seed-Thinking-v1.5在推理AI竞争中展现出强大的实力。

•该模型采用混合专家架构，能够在多项基准测试中超越行业巨头，尤其是在STEM领域。

•Seed-Thinking-v1.5的推出标志着字节跳动在AI领域的进一步布局。

商汤科技升级SenseCore 2.0，推出1亿元代金券计划

•商汤科技宣布其大装置SenseCore 2.0全面升级，旨在为企业提供高效、灵活的全栈AI基础设施服务。

•此次升级响应了大模型产业的三大挑战，显著提升了算力利用率和推理性能。

•商汤还推出1亿元代金券计划，支持企业从咨询到模型训练的全流程AI服务。

Google AI Studio开放Veo 2视频模型试用

•Google AI Studio向部分用户开放了Veo 2视频模型的有限免费试用，引发广泛关注。

•Veo 2支持高达4K分辨率和真实的物理模拟，展现了强大的技术实力。

•试用权限受到严格限制，用户对冷却时间和后续使用感到困惑。

上海AI实验室发布InternVL3系列多模态语言模型

•OpenGVLab发布的InternVL3系列模型具备处理文字、图片、视频等多种信息的能力。

•该系列模型在多模态感知和推理上有显著进步，扩展了工具使用和工业图像分析的能力。

•InternVL3系列支持从1B到78B的多种尺寸，展现出卓越的多模态处理能力。

GAIA基准推出，标志AI评估方法的重大转变

•新推出的GAIA基准通过模拟真实世界的复杂问题，强调AI在多步骤任务中的灵活性与专业化。

•GAIA基准旨在评估AI在实际应用中的能力，涵盖多模态理解和复杂推理等关键技能。

•传统基准如MMLU的高分并不代表AI的真实能力，GAIA基准的初步结果显示灵活性强的模型在复杂任务中表现优于其他知名模型。

Pusa开源视频模型，低成本复现高质量

•Pusa是一个基于Mochi微调的开源视频生成模型，训练成本仅为100美元。

•该模型展现出较好的视频生成能力，支持多种生成任务，促进了社区的合作与发展。

•尽管当前分辨率为480p，但在运动保真度和提示遵循性方面表现出潜力。

字节跳动开源项目UNO，提升图像生成一致性

•字节跳动的UNO项目在AI图像生成领域取得了重要突破，解决了角色一致性问题。

•UNO通过创新的高一致性数据合成流程和模型设计，确保生成的图像保持特征一致性。

•该项目支持单主体和多主体场景，提升了图像生成的可控性。

小鹏汽车推出新物理大模型，强化AI汽车定位

•小鹏汽车创始人何小鹏强调公司作为AI汽车公司的定位，认为AI技术的最大价值在于改变物理世界。

•小鹏在自动驾驶领域的创新技术，尤其是强化学习与模型蒸馏，使其在行业内具备独特竞争力。

•2025年发布会将解答小鹏未来发展方向，推出新车型X9。

字节跳动布局AI智能眼镜，挑战可穿戴设备市场

•字节跳动正在研发一款AI智能眼镜，旨在将先进的人工智能功能与高质量影像捕捉相结合。

•该设备将集成字节跳动自研的“豆包”AI模型，增强智能交互能力。

•用户可通过语音指令等方式与眼镜互动，提升使用体验。