日期筛选

日

一

二

三

四

五

六

28

29

30

31

01

02

03

04

05

06

07

08

09

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

01

02

03

04

05

06

07

AI新闻

已选标签:

生成模型

12月 3日

1 条新闻

00:35

YouTube发布首份您观看视频的回顾报告

YouTube发布首份您观看视频的回顾报告

YouTube推出基于用户观看习惯的年度回顾功能Recap，利用机器学习技术生成个性化卡片，展示用户的顶级频道、兴趣及观看习惯演变，并根据偏好分配人格类型。该功能体现了AI在内容推荐和用户行为分析方面的应用，展示了如何通过数据分析提升用户体验。

来源：TechCrunch AI

12月 2日

15 条新闻

22:29

谷歌卷土重来：你大爷还是你大爷

谷歌卷土重来：你大爷还是你大爷

谷歌凭借自研TPU芯片及Gemini-3模型，在AI领域强势回归，挑战英伟达GPU的垄断地位。TPU作为专用ASIC芯片，在特定AI任务上展现出更高效率与成本优势，吸引Meta等大客户考虑转向。尽管如此，英伟达依靠其成熟的CUDA生态及其他防御性布局仍保持较强竞争力。此事件反映了AI产业中通用与专用芯片之争，以及对算力效率和成本控制的关注。

来源：36氪

20:26

大摩：人形机器人芯片市场规模将加速扩张

摩根士丹利预计，到2045年，人形机器人半导体市场规模将达3050亿美元，2025-2030年需求增长约15%，之后再增长40%。到2050年，全球人形机器人规模有望达5万亿美元，累计部署量将达10亿台。而在这一长达数十年的增长中，半导体行业将迎来新的增长机会。（广角观察）

来源：钛媒体

20:00

能讲“悄悄话”的智能助理，瑞声科技助力夸克AI眼镜S1开创语音交互新范式

能讲“悄悄话”的智能助理，瑞声科技助力夸克AI眼镜S1开创语音交互新范式

阿里巴巴推出夸克AI眼镜S1，采用瑞声科技5麦克风阵列+骨传导高精度拾音系统，实现轻声唤醒与精准语音交互。该方案通过硬件创新与算法结合，显著降低误唤醒率，提升私密性和可靠性，为智能眼镜行业带来全新交互范式，并拓展了在多场景下的应用潜力。

来源：量子位

19:24

SaaS已死？Anthropic和Cursor揭示了8个AI创业真相

人工智能正在重塑SaaS行业，带来新的商业路径。计算成本成为关键因素，毛利率普遍下降但增长速度加快。AI公司需重新定义健康增长，关注单位经济效益。定价模式从固定订阅转向基于使用量和结果的模式。销售策略更加灵活和技术导向。AI融入日常工作流程，推动团队更高效运作。专注特定领域和合作成为制胜之道。新的衡量指标关注使用情况、客户喜爱度和杠杆作用。

来源：36氪

18:40

小猿学练机荣获2025 IDEA国际设计奖，开创学习平板品类新高度

小猿学练机荣获2025 IDEA国际设计奖，开创学习平板品类新高度

小猿学练机凭借其创新的护眼设计和卓越的教育AI体验荣获2025 IDEA国际设计奖，标志着中国教育智能硬件从技术跟随向标准引领转变。该产品通过融合墨水屏与自研’猿力大模型’，实现精准的手写识别、自动批改及个性化学习方案生成，显著提升学生学习效率。同时，基于海量教育资源，小猿学练机在练习覆盖度、更新度和精准度上均领先行业，展现了AI技术在教育领域的巨大潜力。

来源：量子位

16:18

V3.2逼近Gemini 3，DeepSeek硬气喊话：接下来我要堆算力了

V3.2逼近Gemini 3，DeepSeek硬气喊话：接下来我要堆算力了

DeepSeek发布V3.2和V3.2-Speciale，证明了通过优化方法和数据而非单纯扩大模型规模来解决训练后瓶颈的可行性。V3.2引入稀疏注意力机制DSA，提高效率并融合思考与工具调用；Speciale则专注于深度推理，验证了过程监督可泛化至多个领域。两者共同展示了未来AI模型可能不再依赖人力堆砌，而是依靠自我博弈实现持续演进的趋势。

来源：36氪

16:18

五年，终于等来Transformers v5

五年，终于等来Transformers v5

Transformers v5 发布首个 RC 版本，标志着该 AI 基础设施库正式从 v4 升级至 v5。此次更新聚焦于极致简洁性、预训练支持、高性能推理引擎互操作性及量化提升为核心功能。Transformers 作为领先的模型定义库，通过持续演进保持其在人工智能领域的相关性与领先优势，进一步推动了多模态模型的发展，并加强了与各类推理引擎的兼容性，为未来AI技术的应用提供了坚实的基础。

来源：36氪

15:17

中国首个作物“AI基因科学家”问世，明年面向全球上线

中国作物学界首位“AI同事”——由上海人工智能实验室联合崖州湾国家实验室、中国农业大学等机构共同研发的“丰登·基因科学家”今年夏天问世后受到各方关注。最新获悉，这一基于大模型的科研智能体计划明年面向全球上线。“丰登·基因科学家”不仅能精准回答育种领域问题，更能模拟育种专家的思维链条：提出科学假设、自主设计实验、解析结果数据。截至目前，已辅助科研人员发现数十个此前未被报道的作物基因功能，并获得实验证实。 (上观新闻)

来源：钛媒体

15:16

前苹果大牛归国创业，「万有引力」打造首颗全功能空间计算MR芯片

前苹果大牛归国创业，「万有引力」打造首颗全功能空间计算MR芯片

万有引力电子科技推出三款空间计算芯片，包括MR专用的极智G-X100、AI/AR专用ISP的极眸G-VX100及面向数字人渲染的极颜G-EB100，形成全栈解决方案。这些芯片针对感知计算、AI推理与实时3D渲染进行了优化，特别是在低延迟和高能效方面实现了突破。此外，通过“极域”平台，该公司提供了一个从底层算力到终端应用的技术闭环，旨在解决行业面临的专用芯片依赖度高、系统级生态薄弱等问题，推动空间计算技术向大规模产业化迈进。

来源：36氪

13:35

世界模型和具身大脑最新突破：90%生成数据，VLA性能暴涨300%｜开源

世界模型和具身大脑最新突破：90%生成数据，VLA性能暴涨300%｜开源

极佳视界发布并开源了具身世界模型GigaWorld-0，该模型在VLA训练中实现了90%的数据由世界模型生成，并使VLA性能提升300%。GigaWorld-0通过视频和3D生成技术，解决了真实机器人数据稀缺问题，支持高效、高泛化、低成本的具身智能训练。其创新架构包括稀疏注意力机制与MoE架构，以及基于物理信息神经网络的可微分物理引擎，显著提升了生成数据的质量与多样性。

来源：量子位

12:11

AI初创公司Runway推出影片生成模型Gen 4.5，测评排名超谷歌和OpenAI

人工智能(AI)初创公司Runway周一宣布推出最新影片生成模型Gen 4.5，能依照文字指令生成高画质影片，并在第三方评测平台Video Arena夺下第一名，谷歌Veo 3排名第二，OpenAI的Sora 2 Pro则位居第七。据介绍，新模型擅长理解物理效果、人类动作、镜头运动与因果关系，能更精准地模拟真实世界情境。Gen 4.5将于本周逐步向所有Runway用户全面开放。（广角观察）

来源：钛媒体

11:53

PixVerse（拍我AI）V5.5发布：国内首款分镜+音频一键生成AI视频大模型

PixVerse（拍我AI）V5.5发布：国内首款分镜+音频一键生成AI视频大模型

拍我AI V5.5发布，国内首款实现分镜+音频一键生成视频的大模型。该版本支持多镜头与音频同步生成，具备完整叙事能力，大幅降低视频创作门槛。用户只需输入简短提示词即可生成高质量视频，涵盖景别变化、对白、音效等。此外，平台还提供图像到视频的一体化工作流及多种编辑功能，推动AI视频成为内容生产的基础设施。

来源：量子位

11:09

可灵AI发布全新视频和图像模型可灵O1

可灵AI正式发布其全新产品“可灵O1”，定位为首个大一统的多模态创作工具。可灵O1基于全新的视频和图像模型，整合文字、视频、图片、主体等多模态输入。（广角观察）

来源：钛媒体

09:04

梁文锋署名论文，DeepSeek最强开源Agent模型炸场

梁文锋署名论文，DeepSeek最强开源Agent模型炸场

DeepSeek发布新模型DeepSeek-V3.2及长思考增强版Speciale，性能超越现有开源模型，在推理、智能体等多领域基准测试中表现出色。通过引入DSA稀疏注意力机制、强化学习协议和工具使用场景泛化流程，显著提升长序列处理效率与泛化能力。V3.2系列已开源，并在多个国际竞赛中取得优异成绩，展现了强大的复杂任务处理能力。

来源：36氪

09:04

ChatGPT 三周年遭 DeepSeek 暴击，23 页技术报告藏着开源登顶的全部秘密

ChatGPT 三周年遭 DeepSeek 暴击，23 页技术报告藏着开源登顶的全部秘密

DeepSeek 发布了两款新模型 V3.2 和 V3.2-Speciale，分别在推理能力和工具调用方面取得突破。V3.2 引入稀疏注意力机制 DSA，显著提升了处理长文档的效率和性能；同时通过强化学习训练框架，实现了边思考边使用工具的能力，适用于日常问答、写作等场景。V3.2-Speciale 则面向高级任务，性能媲美 Gemini-3.0-Pro，但在成本和实用性上有所妥协。

来源：36氪

2月 11日

2 条新闻

11:00

字节跳动推出 Goku 和 Goku+：口播视频生成模型

Goku是字节最新发布的专注于视频生成的基础模型，能够根据文本提示生成高质量的视频内容。

此外，字节还推出了 Goku+，这是一个基于 Goku 的广告视频生成模型，专门用于生成真人出镜的口播广告视频和产品广告宣传片。

从官方的演示来看，Goku+ 生成的视频非常的逼真，不过目前只发布了论文，考虑到字节的一贯做法，这些模型大概率不会开源。

来源：三花快讯

05:00

谷歌向个人用户扩展NotebookLM Plus

Google 扩展了基于 AI 的笔记和研究助手 NotebookLM Plus 的付费版本，面向个人用户开放，提供更高的使用限制和高级功能，包括 5 倍于免费版本的使用量、500 个笔记本、300 个来源/笔记本、500 次聊天查询和 20 次音频生成/天。该服务基于 Gemini AI 模型，支持多语言扩展和移动设备应用，探索推理模型的应用。Google 强调免费和付费用户的优质体验，并计划持续优化。NotebookLM 自 2023 年推出以来，已获得广泛关注，尤其在学生群体中。

来源：TechCrunch AI

2月 10日

1 条新闻

22:00

2025年超级碗比赛中，人工智能驱动的广告崭露头角

2025 年超级碗成为 AI 技术展示的重要舞台，OpenAI、Google、Meta 和 Salesforce 等科技巨头通过广告展示其 AI 产品。OpenAI 首次推出超级碗广告，以点彩动画风格呈现生成式 AI 的历史意义；Google 展示 Gemini 聊天机器人在家庭与职业场景中的应用，但暴露了 AI 幻觉问题；Meta 推广 AI 智能眼镜，强调其在艺术领域的实用性；Salesforce 则通过广告展示其自主 AI 代理平台 Agentforce 的潜力。这些广告凸显了 AI 技术在大众市场的普及趋势，同时也反映了企业在 AI 商业化落地中的挑战与机遇。

来源：TechCrunch AI

2月 8日

1 条新闻

09:58

上海 AI 智能实验室推出 Lumina-Image 2.0：开源统一图像生成模型

Lumina-Image 2.0 是上海 AI 智能实验室推出的一款开源统一图像生成模型。该模型支持多种图像生成功能，包括写真、艺术字、风格化图像、逻辑推理图像、双语 prompt 以及图片加文字的引导生成。

从基准测试来看，Lumina-Image 2.0 的表现优于 DALL-E3，远超 SDXL。目前，该模型正在逐步开源，并且已经适配支持了 ComfyUI

来源：三花快讯