4AGI - 从代码到通用智能，从独行到共创未来

⭐ 今日热点

💡 微软 BitNet b1.58 2B4T 登场：内存占用仅 0.4GB，20 亿参数模型颠覆 AI 计算

4月17日，微软研究团队推出开源大语言模型BitNet b1.58 2B4T，有20亿参数。它以1.58位低精度架构原生训练，内存占用仅0.4GB，远低于竞品。其创新架构摒弃传统16位数值，开发历经三阶段。测试显示在多方面表现优异，能耗和CPU解码延迟有优势。不过其高效依赖专用框架，微软有进一步优化计划，模型已在Hugging Face发布。

🌟 技术突破

💡 OpenAI 最强推理模型 o3 / o4-mini 发布后，“照片查位置”成最新热门玩法

IT之家 | 阅读原文

4月18日外媒报道，OpenAI推出具备图像推理功能的新模型o3和o4 - mini，结合网页搜索功能，ChatGPT成强大“定位工具”，用户能用其“照片查位置”。但这引发隐私风险担忧，且o3定位不完美，有循环、定位错误等问题。凸显新一代“推理型”AI模型增强带来安全隐患，目前ChatGPT及OpenAI安全报告均未针对“反向位置查找”采取有效措施。

💡 字节 Seed 开源 UI-TARS-1.5：基于视觉-语言模型构建的多模态智能体

IT之家 | 阅读原文

4月17日，字节 Seed 开源基于视觉 - 语言模型构建的多模态智能体 UI-TARS-1.5。它基于 UI-TARS 方案，用强化学习增强高阶推理能力。团队提出以游戏增强模型推理能力，因其是评估提升通用能力的理想场景。UI-TARS 能操作电脑、手机系统等。UI-TARS-1.5 实现精准 GUI 操作，源于视觉感知增强等四个维度的技术探索。

💡 业界首个，阿里通义万相“首尾帧生视频模型”开源

IT之家 | 阅读原文

4月17日，阿里通义万相「首尾帧生视频模型」开源，参数量14B，是业界首个百亿参数规模的开源首尾帧视频模型。它能按用户指定首尾图片生成720p高清视频，满足更可控、定制化需求。基于Wan2.1架构，训练和推理阶段有优化策略。基于此模型，用户能完成复杂个性化视频生成任务，还给出多种示例。文末附开源地址及体验入口。

💡 DLSS 4黑科技加持RTX 5060 Ti「帧能打」！4K光追黑悟空，32B模型轻松跑

新智元 | 阅读原文

NVIDIA推出RTX 5060 Ti显卡，3000元左右。它基于新架构和工艺，显存带宽提升。在DLSS 4技术加持下，能4K畅玩多款3A游戏，性能提升显著，如《黑神话：悟空》等游戏帧率大幅提高。还能跑通本地AI大模型，如QwQ 32B模型。在不同分辨率性能测试中超越40系列显卡，光线追踪表现佳，有望成主流显卡新标杆。

💡 异议！顶流AI决战「逆转裁判」：o1险胜Gemini 2.5登顶、Llama 4零分垫底

新智元 | 阅读原文

UCSD研究团队用《逆转裁判》游戏测试AI推理能力，顶尖模型o1、Gemini 2.5 Pro等化身“侦探”。结果o1略胜Gemini 2.5 Pro，Llama - 4 Maverick零分垫底。该游戏考验AI长文本推理、视觉理解等能力。此外还对比了模型性价比，Gemini 2.5 Pro性价比高。团队已开源项目，其中还有推箱子、2048、俄罗斯方块等经典游戏可测试AI性能。

💡 上海人工智能实验室开源多模态大模型“书生・万象 3.0”：能同时处理文本和多模态输入

IT之家 | 阅读原文

4 月 16 日，上海人工智能实验室升级并开源通用多模态大模型书生・万象 3.0（InternVL3）。其采用创新多模态预训练等方法，多模态基础能力全面提升，全量级版本在开源模型中性能位列第一。该团队提出原生多模态预训练方法，让模型同时学习语言和视觉。此外，它还拓展多方面多模态能力，可作 GUI 智能体操作专业软件。文中还给出技术报告、代码开源等相关链接。

💡 o3全网震撼实测：AGI真来了？最强氛围编程秒杀人类，却被曝捏造事实

新智元 | 阅读原文

OpenAI发布的o3模型引发关注。它能以图像思考，视觉推理出色，可缩放图像解题、识图、编程，速度快。众多网友实测惊艳，不少专家给予高度评价，如AI初创CEO称其让OpenAI重回榜首，经济学家直言AGI已至。o4-mini-high解题能力强，在部分测试中表现优异。不过也有人质疑，OpenAI研究员指出其撰写证明不佳，还有实测发现它存在捏造事实等问题。

💫 企业动态

💡 OpenAI 上线 Flex 处理模式：API 费用减半，但牺牲响应速度及稳定性

IT之家 | 阅读原文

4月18日，OpenAI为加大与对手竞争投入，推出“Flex处理模式”新API服务。该模式已对o3和o4 - mini推理模型开放测试，面向优先级低的“非生产”任务。用户以响应速度变慢和资源分配不稳定为代价，换取API费用减半，如o3每百万输入tokens费用从10美元降至5美元，输出从40美元降至20美元。此外，1至3层开发者获取o3访问权限及使用推理摘要、流式API服务需完成身份验证，目的是防违规。

💡 谷歌也要“送 AI 进校园”：美国大学生可限时免费订阅 Google One AI Premium 计划

IT之家 | 阅读原文

4月18日外媒报道，谷歌加入高校市场竞争。美国大学生即日起至2026年6月30日可免费订阅One AI Premium（原价每月20美元）。申请需在2025年6月30日前用.edu邮箱注册验证，到期前会邮件提醒。订阅含2TB云存储空间及多项AI工具，如对抗ChatGPT Plus的Gemini Advanced等。OpenAI和Anthropic本月也有面向高校的免费计划，学术市场价值大，谷歌不想错失机会。

💡 全球首个人形机器人半马 4 月 19 日举办，参赛机器人全阵容发布

IT之家 | 阅读原文

4月19日，全球首个人形机器人半马将在北京亦庄举办，参赛机器人全阵容已发布。参赛队伍正进行赛前调试。赛事亮点多，为“人机共跑”，设多种奖项。比赛全长21.0975公里，有特定地形、弯道。还公布了详细比赛规则，包括起跑、行进、赛道、补给等规则，以及裁判规则、奖项设置等。

💡 跟上 ChatGPT 及 Gemini 步伐，马斯克 xAI 旗下 Grok 增加“记忆”功能

IT之家 | 阅读原文

4月17日，马斯克创办的xAI公司为旗下聊天机器人Grok新增“记忆”功能，可根据用户过去对话记住细节，提供更贴合偏好的答案。ChatGPT和谷歌Gemini早有类似功能。Grok官方称记忆内容对用户透明，可查看和删除。该功能已通过测试版在网站及iOS、安卓应用上线，暂不对欧盟和英国用户开放，用户可关闭或删除记忆，X平台上的Grok也将逐步具备此功能。

💡 5000 亿美元大项目版图扩张，消息称 OpenAI、软银考虑在英投资“星际之门”

IT之家 | 阅读原文

据英国《金融时报》4月17日报道，OpenAI与软银主导的“星际之门”项目，致力于推动美国AI产业发展，正筹集1000亿美元用于AI基础设施建设，预计四年内总投资达5000亿美元。该项目初期投资集中在美国，未来考虑扩展至英国，因英国提升数据中心电力获取计划吸引了它。OpenAI称英国是其在美国外最重要市场之一，此外，德国和法国也是值得关注的市场。近几个月OpenAI游说欧洲各国相关事宜，欧洲委员会也有相应举措。

AGI 日报 - 新闻推送（2025 年 04 月 18 日）

⭐ 今日热点

💡 微软 BitNet b1.58 2B4T 登场：内存占用仅 0.4GB，20 亿参数模型颠覆 AI 计算

🌟 技术突破

💡 OpenAI 最强推理模型 o3 / o4-mini 发布后，“照片查位置”成最新热门玩法

💡 字节 Seed 开源 UI-TARS-1.5：基于视觉-语言模型构建的多模态智能体

💡 业界首个，阿里通义万相“首尾帧生视频模型”开源

💡 DLSS 4黑科技加持RTX 5060 Ti「帧能打」！4K光追黑悟空，32B模型轻松跑

💡 异议！顶流AI决战「逆转裁判」：o1险胜Gemini 2.5登顶、Llama 4零分垫底

💡 上海人工智能实验室开源多模态大模型“书生・万象 3.0”：能同时处理文本和多模态输入

💡 o3全网震撼实测：AGI真来了？最强氛围编程秒杀人类，却被曝捏造事实

💫 企业动态

💡 OpenAI 上线 Flex 处理模式：API 费用减半，但牺牲响应速度及稳定性

💡 谷歌也要“送 AI 进校园”：美国大学生可限时免费订阅 Google One AI Premium 计划

💡 全球首个人形机器人半马 4 月 19 日举办，参赛机器人全阵容发布

💡 跟上 ChatGPT 及 Gemini 步伐，马斯克 xAI 旗下 Grok 增加“记忆”功能

💡 5000 亿美元大项目版图扩张，消息称 OpenAI、软银考虑在英投资“星际之门”