算子简报

2025-03-17 · 算子简报

1

快手可灵AI全面接入DeepSeek-R1,助力创作效率提升

快手旗下的可灵AI已全面接入DeepSeek-R1,提升用户在视频和图片生成方面的便利性。

用户可以通过DeepSeek-R1将灵感转化为专业提示词,降低创作门槛。

DeepSeek灵感版与可灵AI的灵感词库功能联动,帮助用户掌控视频细节。

2

百度发布文心4.5与X1大模型,价格大幅降低引关注

百度推出的文心4.5和X1大模型在性能上超越了GPT-4.5,且API调用价格仅为后者的1%。

文心4.5是百度首个原生多模态大模型,具备强大的推理能力和多模态功能。

新模型的低成本调用将使更多用户受益,推动AI应用的发展。

3

小米大模型团队在音频推理领域取得显著进展

小米大模型团队通过强化学习算法将音频推理模型的准确率提升至64.5%。

该团队在国际权威的MMAU评测榜上名列前茅,展现了强化学习的有效性。

相关技术已开源,推动了学术界和产业界的进一步研究。

4

钉钉推出AI客服助理,提升企业服务效率

钉钉新推出的AI客服助理能够自动接入企业官网和公众号,支持多轮对话。

该功能已被700多家企业接入,提供7×24小时在线服务,响应速度快。

企业只需三步配置,即可快速上线AI助理,简化知识体系构建。

5

图像效果转换技术LBM:一键移除路人甲,调整光照

LBM是一款高效的图像处理工具,具备强大的对象移除能力和光照调整功能。

用户可以轻松去除照片中的不必要元素,营造理想的氛围。

该技术适合摄影爱好者和专业人士,简化了图像编辑流程。

6

Anthropic即将发布Harmony功能,提升AI助手交互能力

Harmony功能将使AI助手能够无缝接入本地文件,提升用户与文件的互动体验。

AI助手可以直接读取、索引和分析本地文件内容,展现强大的编码助手潜力。

该功能还支持基于关键词的搜索,进一步增强了AI的实用性。

7

开源图片超分模型Thera,提升图片清晰度

Thera是一款开源超分辨率模型,能够任意倍数提升图片清晰度。

该模型通过内置的物理观测模型,减少图像失真,呈现更自然的细节。

Thera以Apache-2.0许可证提供,促进技术共享与发展。

8

谷歌Gemini 2.0 Flash去除图片水印功能引发版权担忧

Gemini 2.0 Flash模型的去水印功能引发了关于版权的争议,尤其是涉及知名图片库的内容。

尽管该模型在图像生成和编辑方面表现出色,但缺乏使用限制引发了版权方面的担忧。

其他AI模型如Claude 3.7 Sonnet和GPT-4o拒绝去除水印,认为此举不道德且可能违法。

9

Cohere发布AI模型Command A,企业部署成本降50%

Cohere推出的Command A模型仅需两块GPU即可高效运转,显著降低了企业的硬件需求。

该模型支持多达23种语言及地区方言,助力企业拓展全球市场。

私有部署成本降低高达50%,为企业带来显著的财务优势。

10

仓颉社区发布Cangjie Magic,首个国产Agent开发框架

Cangjie Magic是一个创新的智能体开发框架,基于华为自研的仓颉编程语言。

该框架通过独特的Agent DSL架构,提供全面的智能体生命周期管理。

计划在第三季度实现对Android和iOS的智能体调用能力,拓展移动端应用场景。

11

OpenAI高管预测AI将在2025年底超越人类程序员

OpenAI首席产品官预测,AI将在2025年底之前超越人类程序员,尤其是在编码基准测试中。

他强调了AI编码模型的快速进步,推动编码的自动化。

未来几乎所有代码可能由AI生成,标志着AI在编程领域的持续进步。