AI新闻

已选标签:
多模态AI
12月 12日
3 条新闻
16:32

中国制造的「领航样本」,为何藏在海康威视智能工厂里?

中国制造的「领航样本」,为何藏在海康威视智能工厂里?

海康威视智能工厂通过自研的AI技术,包括工业视觉设备、柔性机械臂、移动机器人及调度系统、多模态感知与大模型等,实现了多品种小批量大规模定制化生产。其智能化进程从数字化协同到数据驱动决策,再到基于大模型和多模态感知的系统智能阶段,展示了中国制造在复杂场景下的创新能力与发展潜力。

来源:36氪

15:30

港中文联手美团开源“视觉推理通才”,图像视频10类任务一网打尽

港中文联手美团开源“视觉推理通才”,图像视频10类任务一网打尽

香港中文大学MMLab与美团研究团队开源OneThinker,一个基于RL的多模态视觉推理通才模型,覆盖图像与视频十类核心任务,在31项主流视觉任务测试中表现优异。通过构建统一数据体系和优化多任务训练方法(如EMA-GRPO算法),OneThinker解决了传统RL模型在单一模态或任务上的局限性,展现了跨模态、多任务的通用理解和零样本能力,为实现通用视觉智能提供了新路径。

来源:36氪

15:30

跳过“逐字生成”,蚂蚁集团赵俊博:扩散模型让我们能直接修改Token

跳过“逐字生成”,蚂蚁集团赵俊博:扩散模型让我们能直接修改Token

赵俊博在量子位MEET2026智能未来大会上介绍了扩散架构语言模型LLaDA 2.0,该模型采用完形填空式预测机制,相比自回归模型,在相同计算量下参数规模更小、生成速度更快且成本更低。团队已开源LLaDA 2.0,并验证其可扩展至千亿规模。尽管扩散语言模型的训练与推理仍处于早期阶段,但其独特优势吸引了谷歌、字节等巨头及初创公司的积极布局。

来源:36氪

12月 6日
6 条新闻
12:48

豆包手机助手调整权限:AI手机是洪水,但不是猛兽

豆包手机助手调整权限:AI手机是洪水,但不是猛兽

豆包手机助手引发的AI操作争议揭示了移动互联网生态与AI-Agent技术间的矛盾。该助手通过GUI-Agent技术执行任务,但因涉及敏感授权和公平性问题,被部分应用限制使用。文章探讨了AI时代下,如何平衡用户便利、数据安全及行业规范,并预测未来AI手机将与互联网服务建立新型协作关系,实现更高效的操作体验。

来源:36氪

11:47

OpenAI被曝最快将于下周二发布GPT-5.2

据报道,作为对谷歌与Anthropic加速竞争的首次“应急式”回应,OpenAI正准备推出其最新的GPT-5.2,当前内部计划的发布日期为12月9日,较原定的12月下旬计划明显提前。知情人士称,GPT-5.2应该能弥补谷歌上个月发布Gemini 3所拉开的差距。目前,Gemini 3在多项评测中名列前茅,并引起了Altman与马斯克的关注。本周早些时候,OpenAI首席执行官Sam Altman宣布公司进入“红色警报 (code red)”状态,以快速应对来自谷歌Gemini 3和Anthropic等竞争对手带来的日益增长的压力。随后,Altman在内部评估中表示,即将推出的GPT-5.2在推理能力上将“领先于谷歌的Gemini 3”。(广角观察)

来源:钛媒体

09:41

好莱坞的鱼头终于朝向了奈飞

好莱坞的鱼头终于朝向了奈飞

奈飞以827亿美元收购华纳兄弟,标志着流媒体巨头在内容产业中的话语权进一步集中。此次并购不仅涉及电影电视工作室和HBO Max等资产,还反映了AI技术在内容推荐、个性化定制及广告投放等方面的应用前景。未来,随着AI技术的不断进步,尤其是在多模态处理与自然语言理解方面的能力提升,预计将推动流媒体平台在用户互动体验上的创新,并对传统院线模式构成挑战。同时,也引发了关于数据安全、算法偏见以及行业垄断等问题的关注。

来源:36氪

08:39

开源和闭源模型的差距在拉大:这是DeepSeek论文揭示的残酷真相

开源和闭源模型的差距在拉大:这是DeepSeek论文揭示的残酷真相

DeepSeek 发布 V3.2 技术报告,指出开源大模型与闭源模型的性能差距在扩大。报告通过对比测试显示,开源模型在复杂任务上明显落后于闭源模型。论文分析了三个关键问题:传统注意力机制效率低、后训练资源投入不足、AI Agent 能力滞后,并提出相应解决方案,包括引入 DSA 机制、增加后训练预算和开发系统化任务合成流程,显著缩小了与闭源模型的差距。

来源:36氪

07:43

前谷歌员工创立的Yoodli估值翻三倍至逾3亿美元,其AI旨在辅助而非取代人类

前谷歌员工创立的Yoodli估值翻三倍至逾3亿美元,其AI旨在辅助而非取代人类

Yoodli,一家利用AI进行沟通培训的初创公司,估值超3亿美元。该公司通过模拟销售通话、领导力辅导等场景,帮助用户提升演讲技巧。Yoodli采用多语言模型支持多种语言,并可嵌入企业现有软件中。其平台不仅限于公众演讲练习,还扩展到面试准备、销售演示等领域,强调AI辅助而非替代人类教练。

来源:TechCrunch AI

05:02

Meta收购AI设备初创公司Limitless

Meta收购AI设备初创公司Limitless

Meta收购AI初创公司Limitless,后者曾推出AI驱动的可穿戴设备以记录对话。尽管Limitless将停止销售硬件并逐步减少服务,但其团队将助力Meta开发AI赋能的可穿戴设备,特别是AR/AI眼镜领域,加速实现个人超级智能愿景。此举反映了AI硬件市场竞争加剧及大型科技公司在该领域的布局趋势。

来源:TechCrunch AI

12月 4日
7 条新闻
22:22

Anthropic签署2亿美元协议,将其大语言模型引入Snowflake客户群体

Anthropic签署2亿美元协议,将其大语言模型引入Snowflake客户群体

Anthropic与Snowflake达成2亿美元多年AI合作协议,将大语言模型Claude引入Snowflake平台,为客户提供多模态数据分析能力及定制化AI代理服务。此次合作旨在推动企业级AI在安全、可信的数据环境中的应用,提升业务数据处理的智能水平。Anthropic近期积极拓展企业市场,已与Deloitte和IBM等多家公司建立合作关系,显示出其在企业级AI领域的强劲竞争力。

来源:TechCrunch AI

21:13

CES官方发布AI趋势:硬件将成AI落地核心载体

CES官方发布AI趋势:硬件将成AI落地核心载体

CES 2026 将于美国拉斯维加斯举行,AI 成为展会核心议题。OpenAI、谷歌等巨头将展示AI与硬件结合的最新趋势,涵盖智能眼镜、人形机器人等多个领域。CTA推出CES Foundry新舞台,聚焦AI技术向具体产品转化。主旨演讲中,西门子等企业将分享工业AI规模化落地及全栈AI平台构建策略。联想等硬件厂商亦将展示其在AI领域的最新战略和技术成果。

来源:36氪

21:12

投资人今年用40亿元给AI智能眼镜加热,有公司一年拿下3轮融资

投资人今年用40亿元给AI智能眼镜加热,有公司一年拿下3轮融资

2025年智能眼镜赛道因AI技术加持而焕发新生,各大科技公司纷纷入局。阿里巴巴和理想汽车分别推出夸克Quark AI眼镜S1与Livis AI眼镜,集成大模型支持实时翻译、支付等功能,并可联动控制车辆。行业层面,Meta、Google等巨头也积极布局,推动智能眼镜成为新流量入口。资本活跃度显著提升,多家企业如雷鸟创新、影目INMO等获得高额融资,聚焦于多模态交互、AR内容生态构建及轻量化设计等方面。未来趋势上,AR+AI融合、全球化视野本土化落地以及光波导等技术创新将是关键发展方向。

来源:36氪

18:02

世界太小,不够世界模型们用了

当前AI领域中,’世界模型’概念成为焦点,尽管定义各异,但共识在于其为通往AGI的关键。技术路线分为表征派与生成派两大流派,前者如Yann LeCun提出的I-JEPA、V-JEPA侧重于抽象状态预测;后者如OpenAI的Sora和DeepMind的Genie3,则致力于通过模拟或重建视觉世界来理解物理规律。李飞飞提出的空间智能则强调构建精确的3D环境。这一趋势反映了行业从文本处理向物理现实模拟转变的努力,旨在克服大语言模型在理解真实世界方面的局限性。

来源:36氪

10:43

马斯克脑机接口意念控制机械臂,演示者获得钢铁之吻,理论上可控制一切

马斯克脑机接口意念控制机械臂,演示者获得钢铁之吻,理论上可控制一切

Neuralink通过脑机接口技术实现了机械臂的意念控制,展示了其在医疗修复领域的潜力。最新进展包括采用“双植入”方案建立“数字神经桥梁”,旨在恢复瘫痪患者的行走能力。此外,用户自主探索了脑机接口在日常生活中的新应用,如通过意念控制摄像头等。Neuralink在过去两年中完成了首批人体植入、多例临床验证,并获得了FDA认证,标志着其在脑机接口领域取得了实质性的突破。

来源:36氪

10:42

这个模型,将革命人类的信息获取方式

这个模型,将革命人类的信息获取方式

字节跳动发布的新模型Vidi2展示了在视频内容理解与处理方面的突破,能够自动解析视频帧并提取关键信息,支持关键词搜索和视频元素编辑。这不仅提升了信息检索效率,还为新媒体创作提供了强大工具。该技术有望革新内容消费模式,加速从文字到视频的搜索转变,并在教育、监控等多个领域展现应用潜力,推动AI技术向更高效、更直观的信息处理方式发展。

来源:36氪

07:37

Meta挖角苹果设计高管艾伦·戴伊领导Reality Labs新创意工作室

Meta挖角苹果设计高管艾伦·戴伊领导Reality Labs新创意工作室

Meta聘请了苹果前设计高管Alan Dye,专注于提升其智能眼镜和VR头显中的AI功能。Dye将领导Reality Labs内的新创意工作室,与多位前苹果设计师共同致力于结合设计、时尚和技术,定义下一代产品体验。此举表明Meta正通过招募顶尖人才加强其在AI领域的竞争力,特别是在多模态模型和人机交互方面的创新。

来源:TechCrunch AI

12月 3日
4 条新闻
21:00

Spotify年度回顾2025首次推出多人模式“回顾派对”

Spotify年度回顾2025首次推出多人模式“回顾派对”

Spotify 2025 Wrapped 引入多项新功能,包括多人互动体验、实时数据比较等,利用深度学习和机器学习技术深入分析用户听歌习惯。新增的互动功能如Top Song Quiz和Listening Age不仅增强了个性化体验,还通过多模态模型提升了用户参与度。这些创新展示了AI在提升用户体验和社交互动方面的潜力。

来源:TechCrunch AI

20:15

AI三国杀:OpenAI狂卷,DeepSeek封神,却被Mistral偷了家?

AI三国杀:OpenAI狂卷,DeepSeek封神,却被Mistral偷了家?

Mistral发布了Mistral Large 3和Ministral 3系列,全部开源、多模态并能落地。Mistral Large 3采用41B active / 675B total的MoE架构,具备原生图像理解等能力,在多个基准测试中表现优异。与NVIDIA合作优化了底层推理链路,提升了运行效率。Ministral 3系列则强调小体积高性能,适用于边缘设备。通过定制化服务,Mistral旨在为企业提供更经济高效的AI解决方案,挑战传统云端大模型。

来源:36氪

18:09

老外傻眼,明用英文提问,DeepSeek依然坚持中文思考

老外傻眼,明用英文提问,DeepSeek依然坚持中文思考

DeepSeek发布的新模型V3.2和V3.2-Speciale在推理能力上显著提升,尤其在长思考与定理证明方面表现优异。研究发现,使用中文等非英语语言进行推理可以有效减少Token消耗并保持准确性,这表明语言选择对模型效率有直接影响。实验还显示,虽然中文在某些场景下比英文更高效,但并非所有情况下都是最优选择。此现象可能与训练数据中语言分布有关,揭示了大模型内部处理机制的复杂性。

来源:36氪

18:09

AI for Science,走到哪一步了?

AI for Science,走到哪一步了?

谷歌DeepMind的AlphaFold等AI模型在蛋白质结构预测、药物设计等方面取得突破,推动了生命科学领域的快速发展。同时,AI技术也在气象学、材料科学等领域展现出巨大潜力,如WeatherNext 2模型超越传统天气预报系统。此外,AI正在从被动工具转变为科学家的主动合作者,通过人机协同和自主实验室模式加速科研进程。

来源:36氪

Back to top button