AI新闻

12月 2日

4 条新闻

11:53

PixVerse（拍我AI）V5.5发布：国内首款分镜+音频一键生成AI视频大模型

拍我AI V5.5发布，国内首款实现分镜+音频一键生成视频的大模型。该版本支持多镜头与音频同步生成，具备完整叙事能力，大幅降低视频创作门槛。用户只需输入简短提示词即可生成高质量视频，涵盖景别变化、对白、音效等。此外，平台还提供图像到视频的一体化工作流及多种编辑功能，推动AI视频成为内容生产的基础设施。

来源：量子位

11:09

可灵AI发布全新视频和图像模型可灵O1

可灵AI正式发布其全新产品“可灵O1”，定位为首个大一统的多模态创作工具。可灵O1基于全新的视频和图像模型，整合文字、视频、图片、主体等多模态输入。（广角观察）

来源：钛媒体

09:04

梁文锋署名论文，DeepSeek最强开源Agent模型炸场

DeepSeek发布新模型DeepSeek-V3.2及长思考增强版Speciale，性能超越现有开源模型，在推理、智能体等多领域基准测试中表现出色。通过引入DSA稀疏注意力机制、强化学习协议和工具使用场景泛化流程，显著提升长序列处理效率与泛化能力。V3.2系列已开源，并在多个国际竞赛中取得优异成绩，展现了强大的复杂任务处理能力。

来源：36氪

09:04

ChatGPT 三周年遭 DeepSeek 暴击，23 页技术报告藏着开源登顶的全部秘密

DeepSeek 发布了两款新模型 V3.2 和 V3.2-Speciale，分别在推理能力和工具调用方面取得突破。V3.2 引入稀疏注意力机制 DSA，显著提升了处理长文档的效率和性能；同时通过强化学习训练框架，实现了边思考边使用工具的能力，适用于日常问答、写作等场景。V3.2-Speciale 则面向高级任务，性能媲美 Gemini-3.0-Pro，但在成本和实用性上有所妥协。

来源：36氪

2月 11日

16 条新闻

18:04

据Dealroom数据，2024年AI投资激增62%达1100亿美元，而初创企业整体融资下降12%

2024年AI初创企业融资达1100亿美元，同比增长62%，远超科技行业整体融资下降12%的趋势。生成式AI和基础AI技术成为投资热点，分别融资474亿美元和显著增长。OpenAI虽未获最高单笔融资，但累计融资超200亿美元，ChatGPT的广泛传播使其成为行业风向标。美国AI初创企业融资占比42%，远超欧洲的25%和其他地区的18%。开源AI项目如DeepSeek的出现，为高成本的大语言模型训练提供了低成本替代方案，但开源AI融资占比仅12%，未来发展尚需观察。

来源：TechCrunch AI

17:25

欧盟寻求私营部门助力资助“人工智能千兆工厂”，瞄准前沿人工智能竞赛

欧盟计划通过私营部门合作，提升 AI 基础设施能力，推动大规模模型训练。欧盟主席冯德莱恩在巴黎 AI 行动峰会上强调，需建设“AI 超级工厂”以支持前沿创新，确保算力资源普惠化。此举旨在应对美国在 AI 算力领域的竞争压力，同时促进跨领域合作，如医疗影像和气候建模。欧盟将采用开放协作模式，推动数据共享与知识整合，加速 AI 技术在经济和社会中的广泛应用。

来源：TechCrunch AI

11:00

ZyphraAI 发布 Zonos-TTS：开源可商用多语言 TTS 模型

Zonos-TTS 是 ZyphraAI 最新发布的多语言 TTS 模型，基于 Apache 2.0 许可证，完全可商用，并支持即时语音克隆功能。

该模型经过 20 万小时的英语语音数据训练，表现出色。除了支持本地部署外，ZyphraAI 还提供了便捷的 API 服务，用户每月可免费生成 100 分钟的音频，专业版则提供 300 分钟/5 美元的服务，超出部分按每分钟 0.02 美元计费。

值得注意的是，其中的语音克隆功能完全免费。

来源：三花快讯

11:00

字节跳动推出 Goku 和 Goku+：口播视频生成模型

Goku是字节最新发布的专注于视频生成的基础模型，能够根据文本提示生成高质量的视频内容。

此外，字节还推出了 Goku+，这是一个基于 Goku 的广告视频生成模型，专门用于生成真人出镜的口播广告视频和产品广告宣传片。

从官方的演示来看，Goku+ 生成的视频非常的逼真，不过目前只发布了论文，考虑到字节的一贯做法，这些模型大概率不会开源。

来源：三花快讯