⭐ 今日热点
💡 OpenAI震撼发布o3/o4-mini,直逼视觉推理巅峰!首用图像思考,十倍算力爆表
新智元 | 阅读原文

OpenAI 发布满血版 o3 和 o4 - mini 推理模型。o3 实现「用图像思考」,刷新多项基准测试 SOTA,性能媲美 Deep Research 且速率更快,推理成本优于 o1;o4 - mini 小巧高效、性价比高。二者均能自主调用工具,还开源编程神器 Codex CLI 并启动资助计划。此外,通过强化学习验证 Scaling 路径有效,模型在多领域表现出色。
🌟 技术突破
💡 谷歌AI成功破解海豚语,海洋版ChatGPT来了!掀人类跨物种交流革命
新智元 | 阅读原文

谷歌推出DolphinGemma大模型,试图破解海豚语言密码。该模型基于30年海豚研究数据训练,参数仅400M,可在普通Pixel手机运行,能识别并预测海豚发声。其利用谷歌音频技术,基于Gemma构建。WDP长期研究提供数据集,WDP与佐治亚理工学院开发CHAT系统实现与海豚交流。Google CEO称这是跨物种交流的一步,夏天将开源,DeepMind CEO也有与其他动物交流的计划 。
💡 全网最全「吉卜力」AI神器总结!只要2分钟,照片秒变吉卜力
新智元 | 阅读原文

创建吉卜力风格图像很流行,97%的人可能不知方法。作家兼AI专家Fran Actúa提供7个2分钟内创建图像的工具,实测统一用「带珍珠耳环的少女」输入、相同提示词。各工具效果不同,如Clipfly能转视频,ChatGPT更动漫化,Grok直出2张且添新环境等,还提及国内某大模型保留了珍珠耳环。
💡 MIT惊人神作:AI独立提出哈密顿物理!0先验知识,一天破译人类百年理论
新智元 | 阅读原文

MIT的Max Tegmark团队有新研究。他们提出架构MASS,让AI在无先验知识下学习。实验发现,AI能独立提出哈密顿物理量等。单个AI科学家能有效学习简单系统,理论类似传统物理表达式。面对复杂系统,显著项减少、理论更多样化且倾向通用表达。多个AI科学家能学到相同底层理论,MASS探索表明拉格朗日描述在经典力学中足够,且MASS可拓展至高维系统。
💡 视频推理R1时刻,7B模型反超GPT-4o!港中文清华推出首个Video-R1
新智元 | 阅读原文

近期AI领域有诸多进展。出现开源版「GPT-4o」17B国产模型,生图效果佳且可商用;清华等用23K数据让1.5B小模型逆袭GPT-4o;商汤日日新V6原生多模态大模型能强化学习、思维链长;华为密集模型比肩DeepSeek-R1 ;中科大等提出新后训练范式复现R1推理;DeepSeek公布推理引擎开源路径;复旦&微软开源首个端到端ID一致性人类视频生成模型。此外还涉及AI在图像检测、教育、推荐系统等方面应用。
💡 微软 Copilot Studio 上线“计算机使用”工具,让 AI 像人一样操作电脑
IT之家 | 阅读原文

4月15日微软发布博文,宣布Copilot Studio上线“计算机使用”功能。这是个图形化平台,其AI智能体借此能像人一样与网站、桌面应用程序互动,支持多浏览器。该功能克服传统RPA局限,无需编码,通过自然语言即可构建自动化流程。有完整可见性,内置推理功能,依托安全措施保障数据安全,还降低企业维护成本和部署难度 。
💡 最强 AI 搜索模型:Perplexity 竞技场夺冠,Sonar 力克谷歌 Gemini
IT之家 | 阅读原文

4月14日,Perplexity公司称其Sonar-Reasoning-Pro-High模型在LM Arena Search Arena评估中与谷歌Gemini-2.5-Pro-Grounding并列第一。评估于2025年3月18日至4月13日进行,对比11个模型。Sonar在与Gemini对决中胜率53%,其系列包揽前四。它专为深度搜索优化,信息源多。现已对Pro用户开放,通过API服务,定价灵活。公司注重产品质量,还将举办API会议。
💫 企业动态
💡 “最佳 AI 拍档”合作裂痕初现:OpenAI 谋求独立、微软转向自研
IT之家 | 阅读原文

微软与 OpenAI 的合作现裂痕。OpenAI 公布 5000 亿美元的 Stargate 项目,谋求独立,不再全依赖微软云服务,且完成 400 亿美元新一轮融资,市值达 3000 亿美元 。而微软虽计划 2025 年投入 800 亿美元发展 AI,但已退出两项相关数据中心交易,减少对 OpenAI 直接援助,战略重心转向提升自身 AI 能力。Salesforce CEO 曾预言微软未来不再用 OpenAI 技术,似正成真。
💡 AI“立功”:谷歌去年封停了 3920 万个广告账号,超 2023 年三倍
IT之家 | 阅读原文

2025年谷歌借助大语言模型等AI技术封停3920万个广告账号,超2023年三倍。谷歌广告安全总经理称AI模型重要,但有人工参与。其组建超100人团队应对深度伪造广告骗局。去年谷歌推出多项技术措施,更新超30项政策,暂停70万个违规账号,深度伪造广告报告减少90%。在美国,下架18亿条广告,500万个诈骗相关账号被封,移除近5亿条诈骗广告,还限制91亿条广告,提供人工审核上诉流程 。
💡 消息称 OpenAI 考虑以 30 亿美元收购人工智能编程工具 Windsurf
IT之家 | 阅读原文

据彭博社4月17日报道,知情人士透露OpenAI正就约30亿美元收购人工智能编程工具Windsurf谈判,若成功将是其最大收购,增强在AI编程助手市场竞争力。收购条款未确定,双方未置评。Windsurf此前估值12.5亿美元,已筹集超2亿美元风投。收购完成后,OpenAI将与多家公司直接竞争,行业并购或增加。OpenAI曾有其他收购,近期投资者对AI编程工具热情高,OpenAI刚完成400亿美元融资,估值达3000亿美元 。
💡 微软 Edge 浏览器免费上线 Copilot Vision 功能,AI 助手可实时解读屏幕内容
IT之家 | 阅读原文

4月17日,微软人工智能首席执行官穆斯塔法・苏莱曼宣布,人工智能助手功能“Copilot Vision”可在Edge浏览器免费使用。它是“基于语音的体验”,能解读屏幕内容辅助用户。但目前免费版有局限,更广泛功能需订阅Copilot Pro 。用户访问特定链接、授权后即可使用。微软称会话期间会记录回答,不收集用户输入等内容。
💡 可实时识别屏幕内容,谷歌 Gemini Live 功能向所有安卓用户免费开放
IT之家 | 阅读原文

4月17日,谷歌宣布Gemini应用中的Gemini Live功能将免费向所有安卓用户开放。该功能能实时识别回应手机摄像头和屏幕内容,此前仅面向特定用户且需订阅。因收到积极反馈,现逐步推送给安卓用户,几周内全面上线,使用场景丰富。同一天,微软宣布类似AI工具Copilot Vision在Edge浏览器免费上线 。
💡 OpenAI 部署新监控系统,防范 o3 和 o4 - mini 提供生物和化学威胁建议
IT之家 | 阅读原文

4月17日消息,OpenAI部署“安全导向推理监控器”新系统,监测o3和o4 - mini,防其提供生物和化学威胁建议。因这俩模型能力提升但有新风险,o3擅长答生物威胁问题。红队花约1000小时标记“不安全”对话,测试中模型拒回应风险提示比例达98.7%,但测试有局限,仍需人工监控。此外,OpenAI还用类似监控器防GPT - 4o问题,不过有研究人员质疑其安全措施。
💡 在终端就能跑的轻量级推理智能体,OpenAI 发布完全开源 Codex CLI 工具
IT之家 | 阅读原文

4月17日,OpenAI发布轻量级终端运行编码智能体Codex CLI并在GitHub完全开源。它能最大化部分模型推理能力,即将支持GPT-4.1等。用户通过命令行获多模态推理能力,是聊天驱动开发工具。其零配置,导入密钥即可用,安全且多模态。可在多种系统使用,最少4GB内存(建议8GB)。开源链接:https://github.com/openai/codex 。
💡 微信首个 AI 助手上线:可与“元宝”在聊天框对话,还能添加好友
IT之家 | 阅读原文

4月16日,微信首个AI助手“元宝”悄悄上线。用户在微信搜索“元宝”可找到聊天入口,能在对话框与它实时交流,交流时还有“对方正在输入...”提示,仿若真人聊天。还能将其添加到通讯录。“元宝”是腾讯元宝App入驻微信的AI助手,搭载混元和DeepSeek双模引擎 ,可解析文章、图片、文档等并互动。在IT之家微信号回复“微信”可获取最新官方内部版微信下载。
💡 AI审稿首次席卷ICLR 2025,12222条建议被接受!30页技术报告公开
新智元 | 阅读原文

ICLR 2025首次大规模引入AI参与审稿。这一试点研究中,AI智能体为约42.3%的评审提供反馈,最终12222条建议被采纳。关键数据显示,26.6%审稿人根据AI建议更新评审,89%情况下提升了审稿质量,更新者评审意见平均增加80字。此外,AI参与提升了作者与审稿人在Rebuttal期间的参与度。ICLR因投稿量增加引入AI,旨在提升评审质量、减轻压力 。
💡 Claude终于能Research了!打通谷歌全家桶,工作效率10倍提升
新智元 | 阅读原文

近期AI等领域热点不断。技术上,智谱开源6款模型,字节发布视频基础大模型,DeepSeek公布推理引擎开源路径,阿里通义大模型上新。企业方面,谷歌在AI领域动作频繁,如深夜狙击英伟达、新竞业政策遭员工炮轰、新模型能和海豚对话。行业观点有,朱西产称3年内蔚小理存活率为0。此外还涉及历史学习、公文写作、汽车、时政等多类资讯 。
💡 xAI 推出 Grok Studio 功能:可 AI 编辑创建文档、代码、报告等
IT之家 | 阅读原文

4月16日,xAI的Grok官方账号宣布新增Grok Studio功能,类似OpenAI的Canvas工具,能编辑和创建文档、代码等。该功能在Grok.com上线,免费和付费用户均可使用,支持预览HTML片段、运行多种代码。Grok并非首个推类似功能的聊天机器人,不过同日Grok与Google Drive集成,用户可直接上传相关文件处理,提升了便利。
💡 消息称字节整合 AI 研发团队,AI Lab 即将全部并入 Seed
IT之家 | 阅读原文

4月16日消息,字节整合AI研发团队,AI Lab即将全部并入Seed 。Seed成立前,AI Lab是字节主要AI研发部门,2016年成立,曾由马维英负责。其团队规模2018年达150人,研究成果用于字节多款产品。为应对大模型竞争,字节筹建Flow和Seed,Seed吸纳内外人才,如Top Seed计划给优秀应届博士候选人高薪。
💡 人形机器人半马赛事规则:不在补给站换电、中途更换机器人将面临罚时
IT之家 | 阅读原文

2025北京亦庄人形机器人半程马拉松延期至4月19日举办。赛事起点在南海子公园一期南广场,终点在通明湖国家信创园,人机同路线但有单独赛道保障安全。采用综合计时,不在补给站换电或中途换机器人会罚时,换一次罚10分钟,关门时间约3小时30分。设多个奖项,冠、亚、季军奖金分别为5000元、4000元、3000元,每队有保障团队,机器人大多要中途换电 。
💡 英伟达H20出口或需「无限期」申请许可,55亿美元损失惨重!
新智元 | 阅读原文

这些新闻涵盖多领域企业动态。如苹果3月从印度空运iPhone赴美;吉利50亿英镑再收购捷豹;腾讯领投,云鲸冲击IPO;赣锋锂业成立储能公司;小鹏自研图灵AI芯片今年Q2量产上车;极海与广汽联合发布国产芯片,国芯科技与广汽战略合作开发芯片等。还涉及英伟达相关,美封杀H20芯片出口致其季度收入受损,股价盘后跌超6% 。
✨ 行业观点
💡 微软最新报告教你“防诈”:如何避开 AI 生成的虚假招聘与诈骗网站
IT之家 | 阅读原文

4月16日微软发布《网络安全信号报告 》。报告指出,AI降低网络诈骗技术门槛,加速攻击频率,比如用于构建详细档案、制造虚假评论等。为此,微软给出建议:加强雇主身份验证;监测AI招聘诈骗;提防完美招聘信息和网站;不向未经验证来源提供个人信息。此外,微软自家应用如Quick Assist、Edge部分功能可增强防护。
💡 何恺明ResNet登顶,Transformer加冕!Nature独家揭秘25篇高被引论文
新智元 | 阅读原文

Nature揭秘21世纪最具影响力的25篇论文,AI论文表现突出。微软团队的ResNet论文登顶,引用量10万 - 25.4万次,解决信号衰减问题,催生众多模型。谷歌Transformer架构论文排第七,是ChatGPT等核心。AI教父Geoff Hinton称AI论文有引用优势。此外,研究软件、统计软件、癌症研究、提升研究质量相关论文也在榜单前列,开源等因素助推论文引用。