算子简报
2025-03-06 · 算子简报
全球首款通用智能体Manus内测火爆,邀请码成热销商品
•全球首款通用智能体Manus引发科技圈广泛关注,具备独立思考和执行复杂任务的能力。
•Manus能够处理日常事务、市场调研和个性化旅行规划等多种任务,展现出强大的通用性。
•在二手市场,Manus邀请码价格从999元到5万元不等,显示出其稀缺性。
阿里推出新开源推理大模型QwQ-32B,显存需求更小
•阿里巴巴的Qwen团队发布开源大型语言模型QwQ-32B,旨在提升复杂问题解决性能。
•该模型以320亿参数和131072 tokens的扩展上下文长度为基础,显存需求更低。
•QwQ-32B在数学和编程等基准测试中表现与更大参数模型相媲美。
OpenAI推出GPT-4.5,逐步向ChatGPT Plus用户开放
•OpenAI宣布最新的人工智能模型GPT-4.5将逐步向ChatGPT Plus用户开放。
•该模型在对话能力上有显著提升,但在复杂推理方面仍存在不足。
•使用成本高达每百万tokens150美元,引发广泛采用的担忧。
豆包推出深度推理模式,提升AI逻辑链条可视化
•字节跳动为其AI助手豆包推出“深度思考”推理模式,提升用户对AI的信任度。
•该模式通过可视化的逻辑链条,增强了AI的智能化和人性化。
•深度推理模式预示着在问答、搜索、写作和阅读领域的广阔前景。
LTX-Video 0.9.5发布,开源AI视频生成技术迈向新高度
•LTX-Video 0.9.5版本的发布标志着开源AI视频生成技术的重大进步。
•该版本支持商用许可,允许企业和个人开发者在商业项目中应用。
•引入关键帧条件支持,提升了视频生成的灵活性和质量。
Spark-TTS文本转语音系统发布,支持零样本语音克隆
•Spark-TTS是一款先进的文本转语音系统,具备零样本语音克隆能力。
•该系统允许用户精确调整语速和音高,满足不同需求。
•支持多种语言生成,适合有声读物制作。
谷歌发布Whisk Animate预览版,图像转动画短片变简单
•谷歌在Google Labs推出Whisk Animate的预览版,允许用户将静态图像转化为8秒动画。
•该功能利用先进的Veo2模型,简化了从静态设计到动态内容的转化过程。
•Whisk Animate的推出进一步巩固了谷歌在生成式AI领域的竞争优势。
Cohere发布多模态AI模型Aya Vision,提供32B和8B版本
•Cohere推出的Aya Vision是一款多模态AI模型,能够执行多种语言和视觉任务。
•该模型通过WhatsApp免费提供,旨在促进全球研究人员的技术获取。
•Aya Vision表现超越更大体量的竞争模型,并推出新的基准评估工具。
抖音集团招募AI数据标注供应商,满足快速增长需求
•抖音集团发布公告,招募优质AI数据标注供应商以满足业务需求。
•此次招募主要面向医疗、法律和教育等领域的企业,注册资本不低于100万元。
•参与公司需为独立法人,具备良好社会信誉,不接受联合体报名。
OpenAI推出“博士级”AI代理,月费高达2万美元
•OpenAI推出名为“博士级”的AI代理,旨在满足高端行业需求。
•该AI代理的月费高达2万美元,提供多种服务类型。
•OpenAI将目标客户锁定在大型企业,允许按员工席位支付费用。
苹果App Store即将推AI生成应用评论摘要功能
•苹果将在iOS 18.4中引入AI生成的应用评论摘要功能,帮助用户快速了解应用反馈。
•摘要将由大型语言模型生成,并每周更新一次,初期将在美国App Store上线。
•该功能可能面临被不良商家利用的风险,影响评论的真实性和公正性。
IBM推出小型AI模型Granite 3.2,强调高效推理与实用性
•IBM推出Granite 3.2大型语言模型,专注于高效、实用的人工智能解决方案。
•该模型具备多模态和推理能力,提升了灵活性和成本效益。
•Granite 3.2在文档处理和数据提取方面表现出色,具备思维链功能。