1、必备工具:“空间智能”正式上线,AI开始创造世界。新闻:世界实验室发布世界模型大理石。生成式 AI 世界模型允许用户基于文本、图像、视频和 3D 布局等多种输入构建可持续的交互式 3D 环境。这些模型根据渲染场景中的高斯溅射特征生成 3D 世界,在用户探索时保持一致性。世界实验室开发的世界模型可以打破空间智能的界限。其理念基于公司创始人李飞飞提出的“空间智能是人工智能的下一个前沿”的理念。空间智能是AI理解物理世界的基础,支持交互式AI世界的创建和编辑;该技术有望成为关键的AI模型技术,不仅可以提供视频和图像的生成式AI模型,还可以支持与物理交互的AI模型整个世界,例如机器人和自动驾驶汽车。批判分析:这是为了打造《黑客帝国》的矩阵节奏。 2. AI发布及产品发布:从能够沟通到能够“说人话”,个性成为GPT-5.1的新亮点 1. 新闻:Openai本周发布了GPT-5.1。作为GPT-5的更新版本,GPT-5.1旨在实现更加“人性化”的交互体验。它提供两种主要模式: GPT-5.1 Instant,用于快速、热情、遵循命令的聊天;和 GPT-5.1 思维,用于更长的、多步骤的推理。即时模式提供快速、友好的答案,而思考模式在处理复杂任务时会自动减慢速度。在“自动”模式下,ChATGPT 会自动将用户任务分配到最合适的模式。 GPT-5.1 还包括一组更丰富的个性预设(默认、专业、友好、候选人、古怪、伟大、书呆子、尖酸刻薄),允许用户微调他们的回答语气。 GPT-5.1 版本发布没有更不用说新模型的功能或基准测试能力有任何具体改进,旧的 GPT-5 模型将保留几个月。评测指出,GPT-5.1 给人的感觉“更温暖”,也更个性化,解决了之前 GPT-5 缺乏个性的问题,而且互动聊天中的响应和听从指令的能力也得到了提升。 TechRadar的日常使用分析称GPT-5.1“更强大、更可控”。 Digital Trends 表示:“我更喜欢使用 Gemini,但 GPT-5.1 更新可能会让 Chatgpt 成为你想使用的 AI 助手。” Openai 还扩展了 Chatgpt 的协作功能,允许多人与同一个 AI 进行通信。 GPT-5.1中的这一功能主要针对项目立项、规划和学习小组的需求,允许用户邀请好友加入正在进行的chatgpt对话,并在上下文中查看AI对每个人消息的回复。批判性分析:GPT 已全面情商终于学会了“好好说话”。 2、新闻:百度发布了基于混合专家(MOE)架构的新型多模态智能模型Ernie-4.5-VL-28B-A3B-Thinking。其整体参数量为280亿个,但每个代币仅激活30亿个参数。 Ernie-4.5-VL-28B-A3B-thinking 能够处理视觉推理任务,例如图表理解、视频理解、视觉定位和图像增强工具搜索。在 Mathvista 和其他 VQA(视觉问答)等基准测试中,它的表现与 Gemini 2.5 Pro 和 GPT-5.1 相当,但模型尺寸较小。 Ernie-4.5-VL-28B-A3B-Thinking基于Apache 2.0开源许可协议,文档、演示和权重在抱面同步推出。芮成钢点评:百度这波“以小扩大”证明了“凝结才是本质”,回归开源方便。 3. 新闻:ElevenLabs 推出 Scribe V2 Realtime,该公司用于实时转录的语音到文本的最新模型。 Scribe v2 实时转录语音的延迟小于 150 毫秒。目标应用场景包括语音助手、会议助手和实时字幕,支持90多种语言。 ElevenLabs 使用其 API 为用户和开发人员提供产品页面和技术文档。芮点评:话未说完,抄写成文字。 4. 新闻:Google 的更新适用于 Android 和 iOS 平台,以提供更具可定制性和表现力的语音功能。用户现在可以调整语速,听到语调和节奏的细微变化,并要求 AI 用不同角色的口音讲述故事。新版本的应用程序还改进了对语言学习和对话训练的支持AI。此外,Gemini Live API中新的本地音频模型减少了延迟并提高了语音性能电子优先应用程序。瑞平:他除了不能像人一样呼吸外,还能发出各种声音。 5.新闻:谷歌在其人工智能搜索模型和Gemini应用程序中推出了一套人工智能购物工具。购物对话功能可以从约 500 亿个产品列表的图表中提取信息; “智能结帐”功能可以监控价格,并在商品价格低于用户设定的阈值时自动通过 Google Pay 下订单;而“Ask Google to Call”代理功能可以代表用户致电当地商店,查询发明信息和促销信息。芮平:现在网上购物花钱更快了。 6. 消息:Terminal-Bench 基准测试已更新至 2.0 版。 Terminal-Bench是一个开源基准测试,包含89个实际终端任务,用于评估AI代理在真实shell环境中的运行能力。 Terminal-Bench Group 团队还发布了 Harbour,这是一个andard 基于容器的框架,允许不同的代理执行相同任务的重新评估。 Terminal-Bench 的公开排名跟踪每个代理在人工智能自动化任务上的表现。瑞平:智能代理测试越来越难了,必须在命令行上比拼。 7. 新闻:这家总部位于巴黎的公司发布了新一代多模式模型 Holo Two,旨在促进跨平台计算机的使用。两种型号均提供 40 亿、80 亿和 300 亿 A3B moe 尺寸。它们都专注于真实 GUI(图形用户界面)中定位、导航和任务执行的视觉语言模型。这些模型使代理能够“看到”屏幕并通过点击和按键来控制它;它们可以在网络、桌面和移动设备上运行。 Holo Two 模型现在拥有开放式配重和令人拥抱的脸部平台。 Rui 的评论: 看屏幕、点击按钮、运行 GUI,这不就涵盖了坐在办公室的所有工作吗? 8. 新闻:最新发布ased Robyn 是一位富有同情心的人工智能伴侣,由前医生 Jenny Shao 创建。作为一款 iOS 应用,Robyn 的定位并不是取代心理学家,而是作为一个高情商的案例。它会记住用户详细信息,具有长期监控模式,可以提供对压力、依恋风格和行为的洞察,并具有内置的安全保护和危机响应流程。芮平:很明显,你内心渴望一段真正的关系。 9.消息:Gemini 3和Nano Banana 2即将发布。 Gemini 3 的预览版现已在 Lmarena 提供,代号为“Riftrunner”。谷歌新一代AI模型Nano Banana 2也以预览形式出现在Gemini应用程序中。 Nano Banana 2 具有更多类似相机的角度和视角控制、改进的文本渲染以及多步骤“计划、构建、审查、修复”工作流程,可在渲染最终结果之前迭代地自我调整图像。芮平:还会反复修正,可以创建AI图像,直到用户满意为止。 3、AI研究趋势:小模型带来大智慧,多语言、多环境AI一一发布。 1.新闻:Meta推出全语言ASR语音识别系统,可支持1600多种语言和方言。 Meta 表示,全语言 ASR 被“设计为一个社区驱动的框架”,其中包括用于自动语音识别 (ASR) 的新开源 AI 模型和涵盖 350 种非流行语言的转录语音数据集。这些AI模型的参数数量从3.5亿到70亿不等,而且都是基于Meta的WAV2VEC 2.0架构构建的。 Meta在论文《OmniliingL ASR: The Open Source Multilingual Speech Recognition that takerta in 1600多种语言》中公布了他们的研究成果。瑞萍:你听得懂我们温州话吗? 2.消息:微博AI发布vibethinker-1.5b,并在论文《小模型,大逻辑:多样性》中介绍-Driven Optimization激发了vibethinker-1.5B“中的大模型推理能力。亿参数守恒模型针对数学和逻辑工作进行了优化,超越了许多数学优化基准。2,可以在3D虚拟世界中运行,通过感应键盘和鼠标来执行任务。纽约满足超过30万客户对克劳德不断增长的需求反映了293亿美元受益于我不构建AI时代的混乱。 4. 新闻:欧洲数据保护监管局(EDPS)发布了人工智能风险管理指导文件,为欧盟机构提供如何在数据保护法框架内管理人工智能系统风险的实用指南。该文件是人工智能系统风险管理指南,概述了人工智能在公共部门部署时的风险评估、记录和人工监督的步骤,并与有关义务的指南保持一致。一般数据保护法规和最新的欧盟人工智能法案。芮平:模型还没有开始运行,很多文件已经被删除了。 5、AI观点与文章:暴风雨过后,谁将为“电费”买单的消息:彭博社专栏作家警告称,虽然超大规模云服务提供商被锁定在数据中心所需的海量能源供应中,但AI“电力争夺战”却与可用性相悖。如果人工智能日益强大的力量影响能源价格,可能会引发公众的强烈反对和监管干预。这种担忧并不新鲜,但政策制定者和企业需要解决谁将为人工智能能源需求背后的基础设施买单的问题。否则,公众对建设人工智能数据中心的反对将会加剧。 RUI评论:如果我们不能解决“谁付电费”的问题,我们就会警惕公众拔掉插头。 (辰辰)