算子简报
2025-03-21 · 算子简报
OpenAI推出全新语音转录模型gpt-4o-transcribe,准确率大幅提升
•OpenAI发布了gpt-4o-transcribe模型,专注于语音转文字的应用。
•该模型在英语转录中的错误率降低至2.46%,显著优于前代模型Whisper。
•gpt-4o-transcribe支持多种语言和复杂环境下的转录,具备噪声消除功能。
快手搜索功能全面升级,DeepSeek R1模型接入
•快手宣布其搜索功能全面接入DeepSeek R1大模型,提升了搜索效果。
•用户在视频和图片生成领域的创作过程变得更加高效。
•AI内容创作平台“可灵AI”整合DeepSeek后,用户能够更精细地控制创作。
Claude AI助手新增网络搜索功能,实时信息获取更便捷
•Anthropic为Claude添加网络搜索功能,提供实时信息和来源引用。
•Claude将搜索结果转化为对话式回答,提升用户体验。
•该功能目前仅向美国付费用户开放,未来计划推广至其他国家。
字节跳动推出InfiniteYou生图框架,保持人脸特征灵活换场景
•InfiniteYou是一款创新的图像生成工具,能够根据文字描述生成个性化图像。
•核心技术InfuseNet确保生成的图像保留用户身份特征。
•用户可灵活变换场景与内容,提升创作的个性化。
腾讯元宝功能升级,支持复杂Excel表格分析
•腾讯元宝新功能提升了用户处理Excel表格的便捷性。
•用户可通过自然语言提问,元宝快速读取数据并进行计算。
•该功能简化了复杂操作流程,即使是新手也能轻松应对数据分析。
Krea AI发布“Video Training”功能,用户可训练专属视频风格
•Krea AI推出全新功能,允许用户上传个人图像和视频素材进行训练。
•该功能支持用户学习特定艺术风格和动态动作,提升内容创作个性化。
•用户可根据需求调整多个参数,生成的风格模型可直接应用于Krea Video平台。
DomoAI推出语音图像生成数字人功能,推动数字内容创作
•DomoAI的新功能允许用户通过上传语音和图像生成会说话的数字人。
•该功能支持口型同步和短视频生成,提升创作灵活性和效率。
•尤其对中文支持表现出色,迅速引发热烈讨论。
Sider AI推出Deep Research功能,提升研究效率
•Sider AI的Deep Research功能能够模拟人类研究行为,自动生成可视化报告。
•该功能通过实时笔记和透明的信息来源提升了研究效率。
•用户可通过浏览器扩展无缝整合自动化与手动研究,适用于多种研究场景。
高中生利用《我的世界》搭建AI模型评测网站,提升公众参与度
•MC-Bench网站通过《我的世界》游戏提供新颖的AI模型评测方式。
•用户可以在不知情的情况下对AI生成的建筑进行投票,提升参与度。
•该创意为AI模型的评估提供了直观的视觉体验。
Reka AI推出开源模型Reka Flash 3,能力超越Gemma 3 27B
•Reka Flash 3是由前谷歌DeepMind科学家推出的开源模型,拥有210亿参数。
•尽管参数量不如一些竞争对手,但其从零开始训练的特性使其在性能上表现出色。
•该模型具备强大的推理能力,适合各种创新应用场景。
生数科技Vidu获得7部千万级网文IP短片改编授权
•Vidu获得了7部千万级网文IP的短片改编授权,标志着国内动漫短剧市场的又一发展里程碑。
•这些作品涵盖多种题材,具有广泛的受众基础和强大的影视化潜力。
•AI技术能够自动化生成剧本和视频画面,大幅提升制作效率。
全球首款儿科大模型问世,助力儿童医疗服务升级
•百川智能与北京儿童医院联合推出全球首个儿科大模型“福棠・百川”。
•该模型涵盖儿童常见病及疑难病症的知识体系,具备强大的临床推理能力。
•通过首创的儿科“循证模式”,医生可以基于科学依据进行临床决策。