AI新闻

12月 14日

1 条新闻

13:50

长江电影与智象未来达成战略合作

湖北长江电影集团与智象未来宣布达成战略合作，共同成立“长江电影智象未来影视AI联合实验室”，主攻AI辅助剧本创作、智能视觉特效生成等技术研发，用AI赋能影视。（创投家CLUB）

来源：钛媒体

12月 12日

2 条新闻

19:38

提示词一响，烂片登场，OpenAI谈下200+迪士尼顶级IP出场费

迪士尼与OpenAI达成10亿美元投资及三年合作协议，授权旗下200多个顶级IP用于生成短视频内容。此举标志着版权方从封锁转为合作，通过UGC反哺Disney+平台，同时利用AI作为生产力工具。然而，这也引发了对品牌形象长期稀释和污染的担忧。

来源：36氪

19:38

花10亿美元，迪士尼让AI来拍“短片”了

迪士尼与OpenAI达成深度合作，授权超过200个IP元素用于Sora和ChatGPT Images中，标志着娱乐行业进入AI工业化阶段。通过生成式AI技术，粉丝可以轻松创作包含迪士尼角色的短视频和静态图像，并有机会在Disney+上展示。此次合作不仅改变了IP运营逻辑，还可能影响未来剧集生命周期评估标准。

来源：36氪

12月 4日

2 条新闻

12:46

AI把音综的事全干了

本文探讨了AI技术在音乐领域的应用，特别是AI歌手如’大头针’和’卷笔刀’在演唱、编曲方面的创新与突破。通过深度学习等技术，AI能够模仿并融合多位歌手的声音特点，创造出超越真人表现的音乐作品。尽管AI在音色完美度上表现出色，但在情感表达上仍存在局限。此外，AI编曲展示了强大的算法能力，为老歌赋予新生命，但其标准化倾向也引发了对个性化创作的担忧。

来源：36氪

10:42

这个模型，将革命人类的信息获取方式

字节跳动发布的新模型Vidi2展示了在视频内容理解与处理方面的突破，能够自动解析视频帧并提取关键信息，支持关键词搜索和视频元素编辑。这不仅提升了信息检索效率，还为新媒体创作提供了强大工具。该技术有望革新内容消费模式，加速从文字到视频的搜索转变，并在教育、监控等多个领域展现应用潜力，推动AI技术向更高效、更直观的信息处理方式发展。

来源：36氪

12月 3日

2 条新闻

21:00

Spotify年度回顾2025首次推出多人模式“回顾派对”

Spotify 2025 Wrapped 引入多项新功能，包括多人互动体验、实时数据比较等，利用深度学习和机器学习技术深入分析用户听歌习惯。新增的互动功能如Top Song Quiz和Listening Age不仅增强了个性化体验，还通过多模态模型提升了用户参与度。这些创新展示了AI在提升用户体验和社交互动方面的潜力。

来源：TechCrunch AI

00:35

YouTube发布首份您观看视频的回顾报告

YouTube推出基于用户观看习惯的年度回顾功能Recap，利用机器学习技术生成个性化卡片，展示用户的顶级频道、兴趣及观看习惯演变，并根据偏好分配人格类型。该功能体现了AI在内容推荐和用户行为分析方面的应用，展示了如何通过数据分析提升用户体验。

来源：TechCrunch AI

12月 2日

4 条新闻

20:26

巴黎AI语音初创公司Gradium获得7000万美元种子轮融资

Gradium，一家由法国AI实验室Kyutai孵化的初创公司，获得7000万美元种子轮融资。该公司专注于开发超低延迟的音频语言AI模型，旨在为开发者提供更快更准确的语音技术，并已支持多国语言。尽管面临来自OpenAI等公司的激烈竞争，但随着AI从文本聊天向语音助手及更多应用场景扩展，对高质量语音表达的需求将持续增长。

来源：TechCrunch AI

17:56

Runway Gen-4.5刷屏发布，把重量尘土和光影都做对了，网友：颠覆

Runway Gen-4.5在文本转视频基准测试中以1247分超越所有现有模型，实现物理和视觉准确性突破。该模型擅长执行复杂序列式指令，生成的视频具有逼真的重量感与动量特征，适用于多种风格和场景。尽管存在因果推理等局限性，Gen-4.5展示了AI在多模态融合及内容生成领域的显著进步。

来源：量子位

12:11

AI初创公司Runway推出影片生成模型Gen 4.5，测评排名超谷歌和OpenAI

人工智能(AI)初创公司Runway周一宣布推出最新影片生成模型Gen 4.5，能依照文字指令生成高画质影片，并在第三方评测平台Video Arena夺下第一名，谷歌Veo 3排名第二，OpenAI的Sora 2 Pro则位居第七。据介绍，新模型擅长理解物理效果、人类动作、镜头运动与因果关系，能更精准地模拟真实世界情境。Gen 4.5将于本周逐步向所有Runway用户全面开放。（广角观察）

来源：钛媒体

11:53

PixVerse（拍我AI）V5.5发布：国内首款分镜+音频一键生成AI视频大模型

拍我AI V5.5发布，国内首款实现分镜+音频一键生成视频的大模型。该版本支持多镜头与音频同步生成，具备完整叙事能力，大幅降低视频创作门槛。用户只需输入简短提示词即可生成高质量视频，涵盖景别变化、对白、音效等。此外，平台还提供图像到视频的一体化工作流及多种编辑功能，推动AI视频成为内容生产的基础设施。

来源：量子位

2月 11日

3 条新闻

11:00

字节跳动推出 Goku 和 Goku+：口播视频生成模型

Goku是字节最新发布的专注于视频生成的基础模型，能够根据文本提示生成高质量的视频内容。

此外，字节还推出了 Goku+，这是一个基于 Goku 的广告视频生成模型，专门用于生成真人出镜的口播广告视频和产品广告宣传片。

从官方的演示来看，Goku+ 生成的视频非常的逼真，不过目前只发布了论文，考虑到字节的一贯做法，这些模型大概率不会开源。

来源：三花快讯

11:00

OpenAI 在超级碗首播电视广告，成本高达 1400 万美元

在第 59 届美国超级碗（Super Bowl）比赛期间，OpenAI 播出了其首个电视广告。这一广告的投放成本约为 1400 万美元（约 1.02 亿元人民币）。

我还为你们找到了制作这种风格视频的工具：一个是使用 ChatGPT Canvas 开发的 Dotted Image Effect，另一个是 ChatGPT Ad Maker。这些工具可以帮你将原有视频/图片转为 OpenAI 广告的风格。

来源：三花快讯

11:00

ZyphraAI 发布 Zonos-TTS：开源可商用多语言 TTS 模型

Zonos-TTS 是 ZyphraAI 最新发布的多语言 TTS 模型，基于 Apache 2.0 许可证，完全可商用，并支持即时语音克隆功能。

该模型经过 20 万小时的英语语音数据训练，表现出色。除了支持本地部署外，ZyphraAI 还提供了便捷的 API 服务，用户每月可免费生成 100 分钟的音频，专业版则提供 300 分钟/5 美元的服务，超出部分按每分钟 0.02 美元计费。

值得注意的是，其中的语音克隆功能完全免费。

来源：三花快讯

2月 7日

2 条新闻

21:26

According to a New York Times report, on Thursday, the U.S. government’s General Services Administration (GSA) removed the spoon emoji as an option that users of its videoconferencing platform can select to express themselves. The move comes a day after workers embraced the digital cutlery to protes

来源：TechCrunch AI

17:00

Meta推出新计划以提升语音和翻译人工智能技术

Meta is launching a new program in partnership with UNESCO to collect speech recordings and transcriptions the company said will help the development of future openly available AI. The program, the Language Technology Partner Program, is seeking collaborators who can contribute more than 10 hours of

来源：TechCrunch AI

2月 6日

1 条新闻

00:00

人工智能的最大舞台即将开启——TechCrunch Sessions: AI 现已开放售票

TechCrunch Sessions: AI 将于6月5日在加州大学伯克利分校举办，汇聚1200名行业领袖，探讨AI领域的最新突破与未来趋势。活动涵盖专家演讲、圆桌讨论及创新展览，重点关注多模态模型、AI视频分析、企业级AI应用等前沿技术。投资专家如Shravan Narayan和Jill Chase将分享AI创业与投资经验，推动产业生态发展。活动为开发者、投资者和创新者提供交流平台，助力AI技术商业化与规模化落地。

来源：TechCrunch AI

2月 5日

2 条新闻

23:06

马斯克寻求驳回特斯拉使用AI生成《银翼杀手》影像的诉讼

特斯拉因涉嫌在发布会上使用 AI 生成的《银翼杀手 2049》版权图像而面临诉讼。原告 Alcon Entertainment 指控特斯拉通过 AI 模型复制受版权保护的图像，用于推广其未来概念车。此案突显了 AI 生成内容在商业应用中的版权风险，尤其是在涉及多模态模型和计算机视觉技术的场景下。特斯拉的辩护策略将直接影响 AI 生成内容的法律边界，可能为未来类似案例提供重要参考。

来源：TechCrunch AI

00:18

深度伪造视频令人震惊地逼真

字节跳动推出新型AI系统OmniHuman-1，能够生成迄今为止最逼真的深度伪造视频。该系统仅需一张参考图像和音频即可生成视频，支持调整视频比例和身体比例，并能编辑现有视频。尽管存在低质量图像和特定姿势的局限性，OmniHuman-1在技术上远超以往深度伪造技术。然而，深度伪造技术的滥用已引发广泛担忧，包括政治误导和金融欺诈。2023年，AI生成内容导致的欺诈损失超过120亿美元，预计到2027年将达到400亿美元。尽管部分州已立法打击AI辅助冒充行为，但深度伪造内容的检测和监管仍面临巨大挑战。地址：https://omnihuman-lab.github.io/

来源：TechCrunch AI

2月 4日

1 条新闻

10:55

披头士乐队昨晚凭借人工智能技术赢得了格莱美奖

披头士乐队凭借 AI 辅助制作的歌曲《Now and Then》获得格莱美最佳摇滚表演奖，展示了 AI 在音频修复领域的突破性应用。通过先进的噪声消除技术，AI 成功从低质量的钢琴演示中提取出已故成员约翰·列侬的声音，解决了传统技术无法处理的音频分离难题。这一技术类似于视频会议中的背景降噪，突显了 AI 在多媒体处理和文化遗产保护中的潜力。该案例标志着 AI 技术在创意产业中的成熟应用，为未来音频修复和内容创作提供了新的可能性。

来源：TechCrunch AI