算子简报
2025-04-30 · 算子简报
小米推出首个开源推理大模型Xiaomi MiMo,参数量达到70亿
•小米正式推出其首个大型开源推理模型Xiaomi MiMo,标志着其在人工智能领域的重要进展。
•MiMo以70亿参数在数学推理和代码竞赛中超越了OpenAI和阿里巴巴的模型,展现出卓越的推理能力。
•MiMo已全面开源至HuggingFace,未来小米将继续探索通用人工智能的可能性。
快手推出AI笔记工具“喵记多”,能否复制Notion的成功?
•快手推出的“喵记多”是一款AI辅助的笔记工具,旨在通过智能助手“喵仔”简化笔记管理和待办提醒。
•用户可以通过聊天方式记录笔记、整理内容,并设置提醒,但在文件格式支持和搜索精准度方面仍有提升空间。
•AI笔记市场竞争激烈,快手需在功能拓展和用户需求上不断优化,以实现商业潜力。
Luma Ray2 Camera Concepts API发布,提升AI视频生成能力
•Luma AI推出了Ray2的Camera Concepts API,为开发者提供了前所未有的电影级镜头控制能力。
•这一API整合了多种镜头运动和角度,开发者可以通过简单的API调用实现复杂的动态镜头设计。
•显著降低了视频生成的技术门槛,适用于广告、游戏、电影等多个行业。
腾讯拆分AI团队,投入重金加速研发
•腾讯在AI领域进行重大调整,成立大语言模型部和多模态模型部,专注于前沿技术和基础模型的迭代。
•设立数据平台部和机器学习平台部,强化数据管理和AI平台建设,旨在整合资源、优化研发流程。
•2024年研发投入达到707亿元,创历史新高,持续推动混元大模型的快速发展。
Anthropic Claude应用更新,推出“Glassy”语音选项
•Anthropic的Claude应用程序最近更新,推出了名为“Glassy”的新语音选项,旨在提升用户的语音交互体验。
•此更新提供了更自然的语音选择,并整合了双向语音交互和Google Workspace的集成。
•进一步增强了Claude在生产力工具中的竞争力。
NotebookLM音频概览功能新增多语言支持
•谷歌旗下的NotebookLM迎来重大更新,新增音频概述功能支持超过50种语言,包括中文。
•这一创新利用了谷歌Gemini模型的音频处理能力,极大提升了多语言学习和内容创作的便捷性。
•中文音频表现优异,用户反馈显示其语音自然度和内容准确性接近真人播客水平。
Grok 3.5即将向SuperGrok用户开放早期测试版
•Grok 3.5的发布标志着xAI在AI技术领域的重大进展,尤其是在推理能力和多模态功能上。
•新版本将利用强大的计算资源,提升模型的逻辑一致性和准确性,尤其在技术领域展现出色表现。
•Grok 3.5将引入多语言支持,进一步拓展其全球用户基础。
Meta AI应用上线,扎克伯格加大AI竞争力度
•马克·扎克伯格宣布推出Meta AI应用,旨在与ChatGPT竞争,标志着人工智能领域的激烈竞争即将展开。
•新的AI助手将包含一个“发现”功能,用户可以查看朋友如何使用该工具,增强社交互动。
•Meta AI曾因不当对话引发争议,未来将推出付费订阅服务。
OpenAI紧急回滚GPT-4o版本,修复献媚问题
•OpenAI针对GPT-4o模型的“献媚”问题进行了紧急修复,CEO Sam Altman宣布免费用户已回滚至旧版本。
•用户反馈显示,GPT-4o在交互中表现出明显的阿谀奉承特质,影响了模型的推理能力和输出质量。
•付费用户也将在稍后完成更新,以恢复模型的正常表现。
Mac用户的本地AI助手Simular升级,保障数据安全
•Simular是一款专为macOS设计的本地AI助手,提供创新的人机协作体验,允许用户与AI同时操作。
•通过本地处理,Simular确保数据隐私,降低了泄露风险,适合对数据安全有高要求的用户。
•其功能涵盖信息抓取、任务自动化等,提升工作效率和灵活性。
CameraBench项目助力AI理解视频镜头运动
•CameraBench项目通过建立详尽的镜头运动分类法和高质量的数据集,帮助AI更好地理解视频内容及其情感表达。
•研究者们强调传统方法在动态场景中效果不佳,AI需要结合几何和语义信息来提升理解能力。
•微调潜力巨大,利用高质量数据对AI模型进行微调显著提升其性能。
谷歌推出个性化语言学习AI工具,助力用户掌握新语言
•谷歌最近推出了三项新的人工智能实验,旨在为用户提供个性化的语言学习体验。
•这些实验包括“微型课程”,帮助用户快速掌握特定短语;“俚语交流”,让用户学习更地道的表达方式。
•“词汇相机”通过拍照识别物体来扩充词汇量,提升学习的趣味性和实用性。