算子简报

2025-03-06 · 算子简报

1

全球首款通用智能体Manus内测火爆,邀请码成热销商品

全球首款通用智能体Manus引发科技圈广泛关注,具备独立思考和执行复杂任务的能力。

Manus能够处理日常事务、市场调研和个性化旅行规划等多种任务,展现出强大的通用性。

在二手市场,Manus邀请码价格从999元到5万元不等,显示出其稀缺性。

2

阿里推出新开源推理大模型QwQ-32B,显存需求更小

阿里巴巴的Qwen团队发布开源大型语言模型QwQ-32B,旨在提升复杂问题解决性能。

该模型以320亿参数和131072 tokens的扩展上下文长度为基础,显存需求更低。

QwQ-32B在数学和编程等基准测试中表现与更大参数模型相媲美。

3

OpenAI推出GPT-4.5,逐步向ChatGPT Plus用户开放

OpenAI宣布最新的人工智能模型GPT-4.5将逐步向ChatGPT Plus用户开放。

该模型在对话能力上有显著提升,但在复杂推理方面仍存在不足。

使用成本高达每百万tokens150美元,引发广泛采用的担忧。

4

豆包推出深度推理模式,提升AI逻辑链条可视化

字节跳动为其AI助手豆包推出“深度思考”推理模式,提升用户对AI的信任度。

该模式通过可视化的逻辑链条,增强了AI的智能化和人性化。

深度推理模式预示着在问答、搜索、写作和阅读领域的广阔前景。

5

LTX-Video 0.9.5发布,开源AI视频生成技术迈向新高度

LTX-Video 0.9.5版本的发布标志着开源AI视频生成技术的重大进步。

该版本支持商用许可,允许企业和个人开发者在商业项目中应用。

引入关键帧条件支持,提升了视频生成的灵活性和质量。

6

Spark-TTS文本转语音系统发布,支持零样本语音克隆

Spark-TTS是一款先进的文本转语音系统,具备零样本语音克隆能力。

该系统允许用户精确调整语速和音高,满足不同需求。

支持多种语言生成,适合有声读物制作。

7

谷歌发布Whisk Animate预览版,图像转动画短片变简单

谷歌在Google Labs推出Whisk Animate的预览版,允许用户将静态图像转化为8秒动画。

该功能利用先进的Veo2模型,简化了从静态设计到动态内容的转化过程。

Whisk Animate的推出进一步巩固了谷歌在生成式AI领域的竞争优势。

8

Cohere发布多模态AI模型Aya Vision,提供32B和8B版本

Cohere推出的Aya Vision是一款多模态AI模型,能够执行多种语言和视觉任务。

该模型通过WhatsApp免费提供,旨在促进全球研究人员的技术获取。

Aya Vision表现超越更大体量的竞争模型,并推出新的基准评估工具。

9

抖音集团招募AI数据标注供应商,满足快速增长需求

抖音集团发布公告,招募优质AI数据标注供应商以满足业务需求。

此次招募主要面向医疗、法律和教育等领域的企业,注册资本不低于100万元。

参与公司需为独立法人,具备良好社会信誉,不接受联合体报名。

10

OpenAI推出“博士级”AI代理,月费高达2万美元

OpenAI推出名为“博士级”的AI代理,旨在满足高端行业需求。

该AI代理的月费高达2万美元,提供多种服务类型。

OpenAI将目标客户锁定在大型企业,允许按员工席位支付费用。

11

苹果App Store即将推AI生成应用评论摘要功能

苹果将在iOS 18.4中引入AI生成的应用评论摘要功能,帮助用户快速了解应用反馈。

摘要将由大型语言模型生成,并每周更新一次,初期将在美国App Store上线。

该功能可能面临被不良商家利用的风险,影响评论的真实性和公正性。

12

IBM推出小型AI模型Granite 3.2,强调高效推理与实用性

IBM推出Granite 3.2大型语言模型,专注于高效、实用的人工智能解决方案。

该模型具备多模态和推理能力,提升了灵活性和成本效益。

Granite 3.2在文档处理和数据提取方面表现出色,具备思维链功能。