算子简报

2025-03-21 · 算子简报

1

OpenAI推出全新语音转录模型gpt-4o-transcribe,准确率大幅提升

OpenAI发布了gpt-4o-transcribe模型,专注于语音转文字的应用。

该模型在英语转录中的错误率降低至2.46%,显著优于前代模型Whisper。

gpt-4o-transcribe支持多种语言和复杂环境下的转录,具备噪声消除功能。

2

快手搜索功能全面升级,DeepSeek R1模型接入

快手宣布其搜索功能全面接入DeepSeek R1大模型,提升了搜索效果。

用户在视频和图片生成领域的创作过程变得更加高效。

AI内容创作平台“可灵AI”整合DeepSeek后,用户能够更精细地控制创作。

3

Claude AI助手新增网络搜索功能,实时信息获取更便捷

Anthropic为Claude添加网络搜索功能,提供实时信息和来源引用。

Claude将搜索结果转化为对话式回答,提升用户体验。

该功能目前仅向美国付费用户开放,未来计划推广至其他国家。

4

字节跳动推出InfiniteYou生图框架,保持人脸特征灵活换场景

InfiniteYou是一款创新的图像生成工具,能够根据文字描述生成个性化图像。

核心技术InfuseNet确保生成的图像保留用户身份特征。

用户可灵活变换场景与内容,提升创作的个性化。

5

腾讯元宝功能升级,支持复杂Excel表格分析

腾讯元宝新功能提升了用户处理Excel表格的便捷性。

用户可通过自然语言提问,元宝快速读取数据并进行计算。

该功能简化了复杂操作流程,即使是新手也能轻松应对数据分析。

6

Krea AI发布“Video Training”功能,用户可训练专属视频风格

Krea AI推出全新功能,允许用户上传个人图像和视频素材进行训练。

该功能支持用户学习特定艺术风格和动态动作,提升内容创作个性化。

用户可根据需求调整多个参数,生成的风格模型可直接应用于Krea Video平台。

7

DomoAI推出语音图像生成数字人功能,推动数字内容创作

DomoAI的新功能允许用户通过上传语音和图像生成会说话的数字人。

该功能支持口型同步和短视频生成,提升创作灵活性和效率。

尤其对中文支持表现出色,迅速引发热烈讨论。

8

Sider AI推出Deep Research功能,提升研究效率

Sider AI的Deep Research功能能够模拟人类研究行为,自动生成可视化报告。

该功能通过实时笔记和透明的信息来源提升了研究效率。

用户可通过浏览器扩展无缝整合自动化与手动研究,适用于多种研究场景。

9

高中生利用《我的世界》搭建AI模型评测网站,提升公众参与度

MC-Bench网站通过《我的世界》游戏提供新颖的AI模型评测方式。

用户可以在不知情的情况下对AI生成的建筑进行投票,提升参与度。

该创意为AI模型的评估提供了直观的视觉体验。

10

Reka AI推出开源模型Reka Flash 3,能力超越Gemma 3 27B

Reka Flash 3是由前谷歌DeepMind科学家推出的开源模型,拥有210亿参数。

尽管参数量不如一些竞争对手,但其从零开始训练的特性使其在性能上表现出色。

该模型具备强大的推理能力,适合各种创新应用场景。

11

生数科技Vidu获得7部千万级网文IP短片改编授权

Vidu获得了7部千万级网文IP的短片改编授权,标志着国内动漫短剧市场的又一发展里程碑。

这些作品涵盖多种题材,具有广泛的受众基础和强大的影视化潜力。

AI技术能够自动化生成剧本和视频画面,大幅提升制作效率。

12

全球首款儿科大模型问世,助力儿童医疗服务升级

百川智能与北京儿童医院联合推出全球首个儿科大模型“福棠・百川”。

该模型涵盖儿童常见病及疑难病症的知识体系,具备强大的临床推理能力。

通过首创的儿科“循证模式”,医生可以基于科学依据进行临床决策。