算子简报
2025-05-12 · 算子简报
快手发布电商专用AI作图工具Poify
•快手推出了AI作图工具Poify,专注于电商领域的图像处理。
•Poify的核心功能包括文生图和图生图,适用于电商需求。
•该工具帮助商家降低成本并提升视觉吸引力。
字节跳动推出开源编程模型Seed-Coder
•字节跳动的Seed团队发布了开源代码模型Seed-Coder,具有8B参数。
•该模型在多个基准测试中表现优异,展现了强大的编程潜力。
•Seed-Coder专注于代码生成和软件工程任务,支持32K上下文。
2025年度十大IP评选结果揭晓
•2025世界IP经济发展大会暨全球IP授权博览会在广州成功举行。
•此次评选吸引了2368个参赛IP,最终确定了十个优秀作品。
•《哪吒之魔童闹海》等作品凭借其出色的故事情节和制作质量入选。
Claude AI API引入网页搜索功能
•Anthropic推出的Claude AI API新增网页搜索功能,实时访问网络信息。
•这一创新显著提升了Claude在回答问题时的准确性。
•开发者可利用此功能构建精准的智能体,应用于多个领域。
苹果发布FastVLM模型,移动设备上的视觉语言处理新选择
•苹果推出的FastVLM模型专为高分辨率图像处理优化,具备极高的编码速度。
•该模型采用创新的FastViTHD编码器,提升了效率。
•FastVLM特别适合在移动设备上运行,展现出色性能。
腾讯发布PrimitiveAnything框架,重塑3D形状生成
•腾讯与清华大学合作推出的PrimitiveAnything框架,旨在重新定义3D形状的生成。
•该框架通过将复杂形状分解为原始组件,提升了几何准确性。
•研究团队构建了大规模的HumanPrim数据集,验证了框架的优越表现。
首个智能文档处理基准发布,Gemini领跑
•IDP Leaderboard正式推出,评估了9229份文档和16个数据集的表现。
•该基准全面分析了当前主流模型在多个核心任务上的表现。
•长文档处理和表格提取仍是视觉-语言模型的短板。
谷歌Gemini 2.5 Pro实现6小时视频理解
•Gemini 2.5 Pro在视频理解领域取得重大突破,支持长达6小时的视频分析。
•该模型具备200万Token的上下文窗口,表现接近行业顶尖水平。
•通过API解析YouTube链接,模型在VideoMME基准测试中表现出色。
用户提问方式影响AI模型准确性
•研究表明,用户请求简短回答时,语言模型更易生成错误信息。
•简洁请求对模型准确性的负面影响显著,尤其在自信措辞时。
•不同模型在现实条件下表现差异明显,小模型更易受影响。
全球首款AI智能浏览器Fellou发布
•Fellou浏览器支持一键搞定研究、发帖、邮件,效率提升5倍。
•该浏览器不仅能进行传统搜索,还能思考、规划并执行复杂任务。
•Fellou承诺不跟踪用户行为,确保用户信息安全。
NVIDIA推出Audio-SDS,革新音效生成
•NVIDIA的Audio-SDS技术显著提升了音效生成和音源分离能力。
•该技术支持多任务音频处理,用户可通过文本提示生成定制化音效。
•Audio-SDS降低了开发成本与时间,促进了音频处理的普及。
Kimi入驻小红书,AI大模型转向内容深耕
•Kimi与小红书的合作标志着AI大模型在内容平台上的新尝试。
•Kimi推出智能助手账号,用户可一键生成笔记。
•Kimi的投流预算在2025年第一季度缩减,显示出转型策略的调整。