AI新闻

已选标签:
AI视频
AI音频
12月 14日
1 条新闻
12月 12日
2 条新闻
19:38

花10亿美元,迪士尼让AI来拍“短片”了

迪士尼与OpenAI达成深度合作,授权超过200个IP元素用于Sora和ChatGPT Images中,标志着娱乐行业进入AI工业化阶段。通过生成式AI技术,粉丝可以轻松创作包含迪士尼角色的短视频和静态图像,并有机会在Disney+上展示。此次合作不仅改变了IP运营逻辑,还可能影响未来剧集生命周期评估标准。

来源:36氪

12月 4日
2 条新闻
12:46

AI把音综的事全干了

AI把音综的事全干了

本文探讨了AI技术在音乐领域的应用,特别是AI歌手如’大头针’和’卷笔刀’在演唱、编曲方面的创新与突破。通过深度学习等技术,AI能够模仿并融合多位歌手的声音特点,创造出超越真人表现的音乐作品。尽管AI在音色完美度上表现出色,但在情感表达上仍存在局限。此外,AI编曲展示了强大的算法能力,为老歌赋予新生命,但其标准化倾向也引发了对个性化创作的担忧。

来源:36氪

10:42

这个模型,将革命人类的信息获取方式

这个模型,将革命人类的信息获取方式

字节跳动发布的新模型Vidi2展示了在视频内容理解与处理方面的突破,能够自动解析视频帧并提取关键信息,支持关键词搜索和视频元素编辑。这不仅提升了信息检索效率,还为新媒体创作提供了强大工具。该技术有望革新内容消费模式,加速从文字到视频的搜索转变,并在教育、监控等多个领域展现应用潜力,推动AI技术向更高效、更直观的信息处理方式发展。

来源:36氪

12月 3日
2 条新闻
21:00

Spotify年度回顾2025首次推出多人模式“回顾派对”

Spotify年度回顾2025首次推出多人模式“回顾派对”

Spotify 2025 Wrapped 引入多项新功能,包括多人互动体验、实时数据比较等,利用深度学习和机器学习技术深入分析用户听歌习惯。新增的互动功能如Top Song Quiz和Listening Age不仅增强了个性化体验,还通过多模态模型提升了用户参与度。这些创新展示了AI在提升用户体验和社交互动方面的潜力。

来源:TechCrunch AI

12月 2日
4 条新闻
20:26

巴黎AI语音初创公司Gradium获得7000万美元种子轮融资

巴黎AI语音初创公司Gradium获得7000万美元种子轮融资

Gradium,一家由法国AI实验室Kyutai孵化的初创公司,获得7000万美元种子轮融资。该公司专注于开发超低延迟的音频语言AI模型,旨在为开发者提供更快更准确的语音技术,并已支持多国语言。尽管面临来自OpenAI等公司的激烈竞争,但随着AI从文本聊天向语音助手及更多应用场景扩展,对高质量语音表达的需求将持续增长。

来源:TechCrunch AI

17:56

Runway Gen-4.5刷屏发布,把重量尘土和光影都做对了,网友:颠覆

Runway Gen-4.5刷屏发布,把重量尘土和光影都做对了,网友:颠覆

Runway Gen-4.5在文本转视频基准测试中以1247分超越所有现有模型,实现物理和视觉准确性突破。该模型擅长执行复杂序列式指令,生成的视频具有逼真的重量感与动量特征,适用于多种风格和场景。尽管存在因果推理等局限性,Gen-4.5展示了AI在多模态融合及内容生成领域的显著进步。

来源:量子位

12:11

AI初创公司Runway推出影片生成模型Gen 4.5,测评排名超谷歌和OpenAI

人工智能(AI)初创公司Runway周一宣布推出最新影片生成模型Gen 4.5,能依照文字指令生成高画质影片,并在第三方评测平台Video Arena夺下第一名,谷歌Veo 3排名第二,OpenAI的Sora 2 Pro则位居第七。据介绍,新模型擅长理解物理效果、人类动作、镜头运动与因果关系,能更精准地模拟真实世界情境。Gen 4.5将于本周逐步向所有Runway用户全面开放。(广角观察)

来源:钛媒体

11:53

PixVerse(拍我AI)V5.5发布:国内首款分镜+音频一键生成AI视频大模型

PixVerse(拍我AI)V5.5发布:国内首款分镜+音频一键生成AI视频大模型

拍我AI V5.5发布,国内首款实现分镜+音频一键生成视频的大模型。该版本支持多镜头与音频同步生成,具备完整叙事能力,大幅降低视频创作门槛。用户只需输入简短提示词即可生成高质量视频,涵盖景别变化、对白、音效等。此外,平台还提供图像到视频的一体化工作流及多种编辑功能,推动AI视频成为内容生产的基础设施。

来源:量子位

2月 11日
3 条新闻
11:00

字节跳动推出 Goku 和 Goku+: 口播视频生成模型

Goku是字节最新发布的专注于视频生成的基础模型,能够根据文本提示生成高质量的视频内容。

此外,字节还推出了 Goku+,这是一个基于 Goku 的广告视频生成模型,专门用于生成真人出镜的口播广告视频和产品广告宣传片。

从官方的演示来看,Goku+ 生成的视频非常的逼真,不过目前只发布了论文,考虑到字节的一贯做法,这些模型大概率不会开源。

来源:三花快讯

11:00

OpenAI 在超级碗首播电视广告,成本高达 1400 万美元

在第 59 届美国超级碗(Super Bowl)比赛期间,OpenAI 播出了其首个电视广告。这一广告的投放成本约为 1400 万美元(约 1.02 亿元人民币)。

我还为你们找到了制作这种风格视频的工具:一个是使用 ChatGPT Canvas 开发的 Dotted Image Effect,另一个是 ChatGPT Ad Maker。这些工具可以帮你将原有视频/图片转为 OpenAI 广告的风格。

来源:三花快讯

11:00

ZyphraAI 发布 Zonos-TTS:开源可商用多语言 TTS 模型

Zonos-TTS 是 ZyphraAI 最新发布的多语言 TTS 模型,基于 Apache 2.0 许可证,完全可商用,并支持即时语音克隆功能。

该模型经过 20 万小时的英语语音数据训练,表现出色。除了支持本地部署外,ZyphraAI 还提供了便捷的 API 服务,用户每月可免费生成 100 分钟的音频,专业版则提供 300 分钟/5 美元的服务,超出部分按每分钟 0.02 美元计费。

值得注意的是,其中的语音克隆功能完全免费。

来源:三花快讯

2月 7日
2 条新闻
2月 6日
1 条新闻
00:00

人工智能的最大舞台即将开启——TechCrunch Sessions: AI 现已开放售票

TechCrunch Sessions: AI 将于6月5日在加州大学伯克利分校举办,汇聚1200名行业领袖,探讨AI领域的最新突破与未来趋势。活动涵盖专家演讲、圆桌讨论及创新展览,重点关注多模态模型、AI视频分析、企业级AI应用等前沿技术。投资专家如Shravan Narayan和Jill Chase将分享AI创业与投资经验,推动产业生态发展。活动为开发者、投资者和创新者提供交流平台,助力AI技术商业化与规模化落地。

来源:TechCrunch AI

2月 5日
2 条新闻
23:06

马斯克寻求驳回特斯拉使用AI生成《银翼杀手》影像的诉讼

特斯拉因涉嫌在发布会上使用 AI 生成的《银翼杀手 2049》版权图像而面临诉讼。原告 Alcon Entertainment 指控特斯拉通过 AI 模型复制受版权保护的图像,用于推广其未来概念车。此案突显了 AI 生成内容在商业应用中的版权风险,尤其是在涉及多模态模型和计算机视觉技术的场景下。特斯拉的辩护策略将直接影响 AI 生成内容的法律边界,可能为未来类似案例提供重要参考。

来源:TechCrunch AI

00:18

深度伪造视频令人震惊地逼真

深度伪造视频令人震惊地逼真

字节跳动推出新型AI系统OmniHuman-1,能够生成迄今为止最逼真的深度伪造视频。该系统仅需一张参考图像和音频即可生成视频,支持调整视频比例和身体比例,并能编辑现有视频。尽管存在低质量图像和特定姿势的局限性,OmniHuman-1在技术上远超以往深度伪造技术。然而,深度伪造技术的滥用已引发广泛担忧,包括政治误导和金融欺诈。2023年,AI生成内容导致的欺诈损失超过120亿美元,预计到2027年将达到400亿美元。尽管部分州已立法打击AI辅助冒充行为,但深度伪造内容的检测和监管仍面临巨大挑战。地址:https://omnihuman-lab.github.io/

来源:TechCrunch AI

2月 4日
1 条新闻
10:55

披头士乐队昨晚凭借人工智能技术赢得了格莱美奖

披头士乐队凭借 AI 辅助制作的歌曲《Now and Then》获得格莱美最佳摇滚表演奖,展示了 AI 在音频修复领域的突破性应用。通过先进的噪声消除技术,AI 成功从低质量的钢琴演示中提取出已故成员约翰·列侬的声音,解决了传统技术无法处理的音频分离难题。这一技术类似于视频会议中的背景降噪,突显了 AI 在多媒体处理和文化遗产保护中的潜力。该案例标志着 AI 技术在创意产业中的成熟应用,为未来音频修复和内容创作提供了新的可能性。

来源:TechCrunch AI

Back to top button