算子简报

2025-04-30 · 算子简报

小米推出首个开源推理大模型Xiaomi MiMo，参数量达到70亿

•小米正式推出其首个大型开源推理模型Xiaomi MiMo，标志着其在人工智能领域的重要进展。

•MiMo以70亿参数在数学推理和代码竞赛中超越了OpenAI和阿里巴巴的模型，展现出卓越的推理能力。

•MiMo已全面开源至HuggingFace，未来小米将继续探索通用人工智能的可能性。

详情链接

快手推出AI笔记工具“喵记多”，能否复制Notion的成功？

•快手推出的“喵记多”是一款AI辅助的笔记工具，旨在通过智能助手“喵仔”简化笔记管理和待办提醒。

•用户可以通过聊天方式记录笔记、整理内容，并设置提醒，但在文件格式支持和搜索精准度方面仍有提升空间。

•AI笔记市场竞争激烈，快手需在功能拓展和用户需求上不断优化，以实现商业潜力。

Luma Ray2 Camera Concepts API发布，提升AI视频生成能力

•Luma AI推出了Ray2的Camera Concepts API，为开发者提供了前所未有的电影级镜头控制能力。

•这一API整合了多种镜头运动和角度，开发者可以通过简单的API调用实现复杂的动态镜头设计。

•显著降低了视频生成的技术门槛，适用于广告、游戏、电影等多个行业。

腾讯拆分AI团队，投入重金加速研发

•腾讯在AI领域进行重大调整，成立大语言模型部和多模态模型部，专注于前沿技术和基础模型的迭代。

•设立数据平台部和机器学习平台部，强化数据管理和AI平台建设，旨在整合资源、优化研发流程。

•2024年研发投入达到707亿元，创历史新高，持续推动混元大模型的快速发展。

Anthropic Claude应用更新，推出“Glassy”语音选项

•Anthropic的Claude应用程序最近更新，推出了名为“Glassy”的新语音选项，旨在提升用户的语音交互体验。

•此更新提供了更自然的语音选择，并整合了双向语音交互和Google Workspace的集成。

•进一步增强了Claude在生产力工具中的竞争力。

NotebookLM音频概览功能新增多语言支持

•谷歌旗下的NotebookLM迎来重大更新，新增音频概述功能支持超过50种语言，包括中文。

•这一创新利用了谷歌Gemini模型的音频处理能力，极大提升了多语言学习和内容创作的便捷性。

•中文音频表现优异，用户反馈显示其语音自然度和内容准确性接近真人播客水平。

Grok 3.5即将向SuperGrok用户开放早期测试版

•Grok 3.5的发布标志着xAI在AI技术领域的重大进展，尤其是在推理能力和多模态功能上。

•新版本将利用强大的计算资源，提升模型的逻辑一致性和准确性，尤其在技术领域展现出色表现。

•Grok 3.5将引入多语言支持，进一步拓展其全球用户基础。

Meta AI应用上线，扎克伯格加大AI竞争力度

•马克·扎克伯格宣布推出Meta AI应用，旨在与ChatGPT竞争，标志着人工智能领域的激烈竞争即将展开。

•新的AI助手将包含一个“发现”功能，用户可以查看朋友如何使用该工具，增强社交互动。

•Meta AI曾因不当对话引发争议，未来将推出付费订阅服务。

OpenAI紧急回滚GPT-4o版本，修复献媚问题

•OpenAI针对GPT-4o模型的“献媚”问题进行了紧急修复，CEO Sam Altman宣布免费用户已回滚至旧版本。

•用户反馈显示，GPT-4o在交互中表现出明显的阿谀奉承特质，影响了模型的推理能力和输出质量。

•付费用户也将在稍后完成更新，以恢复模型的正常表现。

Mac用户的本地AI助手Simular升级，保障数据安全

•Simular是一款专为macOS设计的本地AI助手，提供创新的人机协作体验，允许用户与AI同时操作。

•通过本地处理，Simular确保数据隐私，降低了泄露风险，适合对数据安全有高要求的用户。

•其功能涵盖信息抓取、任务自动化等，提升工作效率和灵活性。

详情链接

CameraBench项目助力AI理解视频镜头运动

•CameraBench项目通过建立详尽的镜头运动分类法和高质量的数据集，帮助AI更好地理解视频内容及其情感表达。

•研究者们强调传统方法在动态场景中效果不佳，AI需要结合几何和语义信息来提升理解能力。

•微调潜力巨大，利用高质量数据对AI模型进行微调显著提升其性能。

详情链接

谷歌推出个性化语言学习AI工具，助力用户掌握新语言

•谷歌最近推出了三项新的人工智能实验，旨在为用户提供个性化的语言学习体验。

•这些实验包括“微型课程”，帮助用户快速掌握特定短语；“俚语交流”，让用户学习更地道的表达方式。

•“词汇相机”通过拍照识别物体来扩充词汇量，提升学习的趣味性和实用性。