算子简报
2025-04-18 · 算子简报
阿里巴巴开源新视频生成模型Wan2.1-FLF2V-14B
•阿里巴巴的通义实验室在Hugging Face和GitHub上开源了Wan2.1-FLF2V-14B模型,标志着AI视频生成技术的重大进步。
•该模型支持高清视频生成,并通过用户提供的首尾帧实现流畅的动画过渡,具备多种功能如文本到视频、视频编辑等。
•用户仅需提供两张图片即可生成流畅的5秒720p高清视频,拓展了创作场景。
字节跳动推出开源智能体模型UI-TARS-1.5
•字节跳动的UI-TARS-1.5模型在多模态智能体领域取得了显著进展,特别是在GUI操作和游戏推理方面。
•该模型通过强化学习增强了高阶推理能力,展现出在复杂任务中的优越表现。
•UI-TARS-1.5在7个GUI评测基准中取得了SOTA表现,展现了长时推理和交互能力。
OpenAI发布智能体构建实战指南
•OpenAI近期发布的《构建智能体实践指南》为产品和工程团队提供了构建智能体系统的必要知识与最佳实践。
•该指南详细阐述了智能体的定义、设计及安全部署,强调智能体与传统软件的根本区别。
•特别适用于复杂决策和处理非结构化数据的场景,助力开发者理解智能体的构建过程。
腾讯开源InstantCharacter框架,提升角色定制能力
•腾讯混元团队正式开源了InstantCharacter框架,具备高一致性和灵活性,能够从单张图像生成多样化的角色定制。
•该框架适用于多种艺术风格,降低了角色定制的技术门槛,激发全球开发者的创新热情。
•同时,开发者需关注版权和伦理问题,以确保技术的合理使用。
FramePack技术革新,推动视频生成平民化
•FramePack是一项革命性的视频扩散技术,其低显存需求和高效生成能力使其成为视频生成领域的游戏规则改变者。
•仅需6GB显存,FramePack能够实现全帧率下的千帧视频生成,极大降低了技术的应用门槛。
•生成速度惊人,未优化情况下为2.5秒/帧,优化后可达1.5秒/帧,适合多种应用场景。
谷歌推出Gemini 2.5 Flash,提升AI助手性能
•谷歌最新推出的Gemini 2.5 Flash版本在推理能力上进行了显著升级,特别是引入了全混合推理模型。
•开发者可以根据需求灵活控制思考过程中的成本和延迟,找到质量与效率之间的理想平衡点。
•在LMArena的“困难提示”测试中,Gemini 2.5 Flash表现优异,仅次于2.5 Pro,展现了其强大的推理能力。
OpenAI发布Flex处理API,降低AI应用成本
•OpenAI最近推出了Flex处理API,以应对激烈的人工智能市场竞争。
•该API允许用户以更低的成本使用AI模型,适合低优先级和非生产性任务。
•使用Flex处理时,o3模型的输入词元价格降至每百万个5美元,输出词元降至每百万个20美元。
Midjourney图像编辑器迎来重大更新
•Midjourney于2025年4月17日发布了其图像编辑器的重要更新,优化了用户体验并引入了多项创新功能。
•新版本包括全新的用户界面、图层功能、智能选择工具和升级的内容审核机制。
•这些更新旨在提升操作效率与创作体验,适合专业设计师与新手用户。
微软推出新型语言模型BitNet b1.58 2B4T
•微软研究团队发布的开源语言模型BitNet b1.582B4T以其20亿参数和仅0.4GB的内存占用引起关注。
•该模型采用创新的1.58位低精度架构,显著降低了计算资源需求,相较于同类产品表现出色。
•BitNet已经在Hugging Face发布,微软计划进一步优化模型功能与性能。
Genspark Super Agent新增文件转换工具
•Genspark Super Agent推出了全新的文件转换工具,支持超过400种文件格式的互转。
•该工具操作简便,用户只需上传文件并选择目标格式,即可快速完成转换。
•转换过程智能优化,减少信息丢失,提升文件编辑灵活性。
智谱Z基金出资3亿支持全球开源社区
•北京市人工智能产业投资基金再次追加对智谱的投资,旨在支持其开源模型研发和社区生态建设。
•智谱作为国内AI大模型企业的佼佼者,已在多个领域积累了丰富的模型能力。
•自成立以来,智谱已开源55款模型,下载量近4000万次,致力于推动AI普惠。
理想同学MindGPT 3.0上线,深度思考能力显著提升
•理想汽车最近宣布其智能助手“理想同学”完成了重要升级,搭载的MindGPT 3.0模型现已全面上线。
•这次升级提升了人工智能的性能,尤其是深度思考能力,使其能与行业领先的模型相媲美。
•该模型支持结构化思维链展示,用户可以直观了解助手的思考过程。