⭐ 今日热点
💡 初探谷歌 Gemini 视频解析功能,AI 准确识别视频拍摄场所
IT之家 | 阅读原文

4月22日消息,科技媒体报道谷歌Gemini聊天机器人新增视频分析功能。团队拆解安卓版APK文件激活该功能,用户能上传视频提问,Gemini快速分析反馈。测试中它表现出色,能精准推测拍摄地点。此功能支持上传最长5分钟视频,可多个上传但总时长受限。其应用多样,如生成会议摘要、提供故障排查建议,实用性值得期待 。
🌟 技术突破
💡 Transformer原作打脸DeepSeek观点?一句Wait就能引发反思,RL都不用
新智元 | 阅读原文

Transformer作者Ashish Vaswani团队研究发现,仅预训练LLM就能涌现自我反思、纠正能力。随预训练推进,模型从错误恢复能力增强,显式反思频率和贡献度提升。一个简单指令「Wait,」就能激发显式反思,效果堪比告知错误。研究还提出反思定义、创建对抗性数据集及测量方法。实验表明,模型准确率与预训练量相关,78.4%准确率增益归因于显性反思 。
💡 日本公司为人形机器人装上“AI 鼻子”,赋予其嗅觉能力
IT之家 | 阅读原文

4月22日消息,日本 Ainos 与 ugo 合作,4月9日将 AI 鼻子系统装在人形机器人上,使其能通过嗅觉感知世界。这是该技术首次集成到商业级人形机器人用于现实应用。Ainos 董事长称这是人工智能感知转折点。ugo 首席执行官称是服务机器人领域飞跃。双方接下来2到4周进行关键开发,之后将在多环境测试,并为多领域开发应用。该技术在多个领域潜力巨大 。
💡 国产Vidu Q1出道即顶流,登顶VBench!吉卜力、广告大片、科幻特效全包了
新智元 | 阅读原文

国产视频大模型Vidu Q1横空出世,在多项权威评测中超越顶尖模型,荣登全球视频生成榜首。它支持1080p高清、5s生成,首尾帧运镜升级,性价比是同行1/10。功能上,文生视频和图生视频效果惊艳,动漫风格多元。还首创影视级混音,支持精细时间控制和多段音效叠加。其能深度赋能创意产业,降低创作门槛。预计2023 - 2033年AI媒体市场规模大幅增长,Q1潜力巨大 。
💡 Claude竟藏着3307种「人格」?深扒70万次对话,这个AI会看人下菜碟
新智元 | 阅读原文

AI公司Anthropic研究Claude价值观。检查70万条匿名对话发现,Claude含超3000种价值观,大体遵循“乐于助人、诚实、无害”。不同场景可切换价值观,对用户价值观支持、重构或抵制,支持占近45%(强烈支持28.2%),重构6.6%,抵制3%。还将AI价值观分五类,实用性和认知性占比超一半。研究为AI价值观评估提供基础 。
💡 142页长文揭秘DeepSeek-R1「思维大脑」!开启全新「思维链学」研究
新智元 | 阅读原文

DeepSeek-R1是推理模型领域新星,开启「思维链学」研究。其训练始于DeepSeek-V3 ,多阶段训练覆盖约14.8万亿个token。推理过程有问题定义、绽放、重构等阶段,具高度结构化特征。研究发现它存在「推理甜点区」,有安全风险。与传统LLM不同,它推动从「提示驱动」到「内生推理」转变,开源特性为AI研究带来新机遇 。
💡 AI 助手 Claude 的“内心世界”:Anthropic 新研究解密其价值观
IT之家 | 阅读原文

Anthropic公司发布“Values in the Wild”研究,剖析AI助手Claude价值观。团队收集2025年2月70万条匿名对话数据,经筛选保留308210条分析。利用CLIO框架提取价值观,识别出多种AI和人类价值观,一致率达98.8%,价值观分五类,实用性和知识性占主导。Claude价值观与设计目标相关,有少量负面价值观。其价值观依情境变化,对用户价值观多支持,较少重塑和抵制。
💡 OpenAI 为 macOS 版 ChatGPT App 带来更强大集成功能:能直接搜索、编程
IT之家 | 阅读原文

4月22日消息,OpenAI为ChatGPT与macOS带来更强集成功能。今年3月发布相关功能,最新版本(1.2025.057)中,用户通过快捷键或图标激活与应用交互,集成多种IDE和终端工具。完成交互后自动呈现建议摘要,可在IDE中修改代码。数据保留规则明确,可关闭特定功能。语音控制有改进但不支持语音代码编辑。还新增临时会话功能,可选择是否共享数据用于模型训练 。
💡 力压群雄:谷歌 Gemini 2.5 Pro 成首款完全理解 PDF 布局的 AI 模型,可精确引用
IT之家 | 阅读原文

4月22日消息,谷歌Gemini 2.5 Pro成首款完全理解PDF布局的AI模型,能精准视觉引用。3月25日发布实验模型,4天后全球用户可免费使用。它能提取文本、理解布局,具“原生视觉”能力,支持处理多文件。AI初创公司联合创始人赞扬其表现。相比其他模型,Gemini 2.5 Pro以0.804的IoU精度大幅领先,还能提取结构化数据标注来源,开启全新文档交互模式。
💫 企业动态
💡 苹果 Siri 团队大换血:AI 浪潮下,新负责人能否力挽狂澜?
IT之家 | 阅读原文

4月23日彭博社报道,苹果新任 Siri 工程负责人 Mike Rockwell 对 Siri 开发管理团队大换血,从 Vision Pro 软件团队引入人才替换原有领导层。因 Siri 技术落后、项目延误等问题,促使 CEO Tim Cook 寻求新力量。苹果正解决 Siri 技术架构问题,计划将“双脑”系统统一为单一 LLM 系统,新功能 App Intents 因质量问题推迟,还在与第三方开发者合作。
💡 加州AI博士一夜失身份!谷歌OpenAI学者掀「离美潮」,38万岗位消失AI优势崩塌
新智元 | 阅读原文

近期,美国掀起签证吊销潮,超1000名国际学生SEVIS记录被终止,合法身份失效。原因多样,或因工作人员粗心、用AI筛选出错,甚至只因罚单等轻微问题。这导致众多AI领域顶尖研究者考虑离开,教授担忧美国AI项目倒退。国际学生对美国经济贡献大,2023 - 2024学年贡献438亿美元,支持超37.8万个岗位。部分学生起诉特朗普政府并获临时限制令,暂时禁止驱逐。
💡 OpenAI o3 / o4-mini 模型 AI 生成文本含特殊符号,推测为隐形水印
IT之家 | 阅读原文

4月22日消息,AI初创公司Rumi发现OpenAI的o3和o4 - mini模型生成文本含特殊Unicode字符,普通视图与标准空格一样,专业工具可检测。Rumi推测这或是OpenAI故意设置的水印,此前模型无此设置且该字符可简单移除。不过也可能是模型从训练数据习得的排版习惯。OpenAI曾探索多种水印方案,行业内谷歌、微软、Meta也重视内容溯源,但很多水印技术易受攻击。
💡 韩国内阁通过 1.8 万亿韩元 AI 投资补充预算:一年内要买 10000 块 GPU
IT之家 | 阅读原文

4月22日消息,韩国内阁上周五通过1.8万亿韩元(约合92.43亿元人民币)AI投资补充预算,将交国会表决。超八成(1.46万亿韩元,约合74.97亿元人民币)预算用于一年内买10000块先进GPU建算力基础,1723亿韩元用于私营企业GPU租赁利用。其他投资项目包括支持企业把握AI NPU商业化时机、选拔开发团队、培养人才、扩大创新基金规模等 。
✨ 行业观点
💡 诺奖得主Hassabis豪言:AI十年治愈所有疾病!哈佛教授警告AGI终结人类文明
新智元 | 阅读原文

谷歌DeepMind掌门Demis Hassabis预测未来5 - 10年AGI将实现,AI能破解科学难题、治愈疾病。他介绍了DeepMind进展,如Astra能感知现实,Gemini迈向行动。此外,哈佛历史学家Niall Ferguson警示,AGI到来可能与人口下降同步,人类或被取代,美国共和体制可能受冲击,人类需重新审视目标,避免制造“末日机器”。
💡 哈佛历史学家预警:AGI灭绝人类,美国或将解体!
新智元 | 阅读原文

历史学家Niall Ferguson对硅谷重未来轻历史的思维提出质疑。他认为AGI或使人类边缘化甚至灭绝;当下技术变革并非前所未有的剧烈;战争才是历史发展主要信号,GDP或随人口负增长下滑;LLM是“伪智能”;硅谷应拥抱历史。此外,他觉得美国联邦制度进入末期,可能解体,人类人口将萎缩,或在建造“末日机器” 。