⭐ 今日热点
💡 微软 BitNet b1.58 2B4T 登场:内存占用仅 0.4GB,20 亿参数模型颠覆 AI 计算
IT之家 | 阅读原文

4月17日,微软研究团队推出开源大语言模型BitNet b1.58 2B4T,有20亿参数。它以1.58位低精度架构原生训练,内存占用仅0.4GB,远低于竞品。其创新架构摒弃传统16位数值,开发历经三阶段。测试显示在多方面表现优异,能耗和CPU解码延迟有优势。不过其高效依赖专用框架,微软有进一步优化计划,模型已在Hugging Face发布 。
🌟 技术突破
💡 OpenAI 最强推理模型 o3 / o4-mini 发布后,“照片查位置”成最新热门玩法
IT之家 | 阅读原文

4月18日外媒报道,OpenAI推出具备图像推理功能的新模型o3和o4 - mini,结合网页搜索功能,ChatGPT成强大“定位工具”,用户能用其“照片查位置”。但这引发隐私风险担忧,且o3定位不完美,有循环、定位错误等问题。凸显新一代“推理型”AI模型增强带来安全隐患,目前ChatGPT及OpenAI安全报告均未针对“反向位置查找”采取有效措施。
💡 字节 Seed 开源 UI-TARS-1.5:基于视觉-语言模型构建的多模态智能体
IT之家 | 阅读原文

4月17日,字节 Seed 开源基于视觉 - 语言模型构建的多模态智能体 UI-TARS-1.5。它基于 UI-TARS 方案,用强化学习增强高阶推理能力。团队提出以游戏增强模型推理能力,因其是评估提升通用能力的理想场景。UI-TARS 能操作电脑、手机系统等。UI-TARS-1.5 实现精准 GUI 操作,源于视觉感知增强等四个维度的技术探索 。
💡 业界首个,阿里通义万相“首尾帧生视频模型”开源
IT之家 | 阅读原文

4月17日,阿里通义万相「首尾帧生视频模型 」开源,参数量14B,是业界首个百亿参数规模的开源首尾帧视频模型。它能按用户指定首尾图片生成720p高清视频,满足更可控、定制化需求。基于Wan2.1架构,训练和推理阶段有优化策略。基于此模型,用户能完成复杂个性化视频生成任务,还给出多种示例。文末附开源地址及体验入口。
💡 DLSS 4黑科技加持RTX 5060 Ti「帧能打」!4K光追黑悟空,32B模型轻松跑
新智元 | 阅读原文

NVIDIA推出RTX 5060 Ti显卡,3000元左右。它基于新架构和工艺,显存带宽提升。在DLSS 4技术加持下,能4K畅玩多款3A游戏,性能提升显著,如《黑神话:悟空》等游戏帧率大幅提高。还能跑通本地AI大模型,如QwQ 32B模型。在不同分辨率性能测试中超越40系列显卡,光线追踪表现佳,有望成主流显卡新标杆 。
💡 异议!顶流AI决战「逆转裁判」:o1险胜Gemini 2.5登顶、Llama 4零分垫底
新智元 | 阅读原文

UCSD研究团队用《逆转裁判》游戏测试AI推理能力,顶尖模型o1、Gemini 2.5 Pro等化身“侦探”。结果o1略胜Gemini 2.5 Pro,Llama - 4 Maverick零分垫底。该游戏考验AI长文本推理、视觉理解等能力。此外还对比了模型性价比,Gemini 2.5 Pro性价比高。团队已开源项目,其中还有推箱子、2048、俄罗斯方块等经典游戏可测试AI性能。
💡 上海人工智能实验室开源多模态大模型“书生・万象 3.0”:能同时处理文本和多模态输入
IT之家 | 阅读原文

4 月 16 日,上海人工智能实验室升级并开源通用多模态大模型书生・万象 3.0(InternVL3)。其采用创新多模态预训练等方法,多模态基础能力全面提升,全量级版本在开源模型中性能位列第一。该团队提出原生多模态预训练方法,让模型同时学习语言和视觉。此外,它还拓展多方面多模态能力,可作 GUI 智能体操作专业软件。文中还给出技术报告、代码开源等相关链接 。
💡 o3全网震撼实测:AGI真来了?最强氛围编程秒杀人类,却被曝捏造事实
新智元 | 阅读原文

OpenAI发布的o3模型引发关注。它能以图像思考,视觉推理出色,可缩放图像解题、识图、编程,速度快。众多网友实测惊艳,不少专家给予高度评价,如AI初创CEO称其让OpenAI重回榜首,经济学家直言AGI已至。o4-mini-high解题能力强,在部分测试中表现优异。不过也有人质疑,OpenAI研究员指出其撰写证明不佳,还有实测发现它存在捏造事实等问题 。
💫 企业动态
💡 OpenAI 上线 Flex 处理模式:API 费用减半,但牺牲响应速度及稳定性
IT之家 | 阅读原文

4月18日,OpenAI为加大与对手竞争投入,推出“Flex处理模式”新API服务。该模式已对o3和o4 - mini推理模型开放测试,面向优先级低的“非生产”任务。用户以响应速度变慢和资源分配不稳定为代价,换取API费用减半,如o3每百万输入tokens费用从10美元降至5美元,输出从40美元降至20美元 。此外,1至3层开发者获取o3访问权限及使用推理摘要、流式API服务需完成身份验证,目的是防违规。
💡 谷歌也要“送 AI 进校园”:美国大学生可限时免费订阅 Google One AI Premium 计划
IT之家 | 阅读原文

4月18日外媒报道,谷歌加入高校市场竞争。美国大学生即日起至2026年6月30日可免费订阅One AI Premium(原价每月20美元 )。申请需在2025年6月30日前用.edu邮箱注册验证,到期前会邮件提醒。订阅含2TB云存储空间及多项AI工具,如对抗ChatGPT Plus的Gemini Advanced等。OpenAI和Anthropic本月也有面向高校的免费计划,学术市场价值大,谷歌不想错失机会。
💡 全球首个人形机器人半马 4 月 19 日举办,参赛机器人全阵容发布
IT之家 | 阅读原文

4月19日,全球首个人形机器人半马将在北京亦庄举办,参赛机器人全阵容已发布。参赛队伍正进行赛前调试。赛事亮点多,为“人机共跑”,设多种奖项。比赛全长21.0975公里,有特定地形、弯道。还公布了详细比赛规则,包括起跑、行进、赛道、补给等规则,以及裁判规则、奖项设置等 。
💡 跟上 ChatGPT 及 Gemini 步伐,马斯克 xAI 旗下 Grok 增加“记忆”功能
IT之家 | 阅读原文

4月17日,马斯克创办的xAI公司为旗下聊天机器人Grok新增“记忆”功能,可根据用户过去对话记住细节,提供更贴合偏好的答案。ChatGPT和谷歌Gemini早有类似功能。Grok官方称记忆内容对用户透明,可查看和删除。该功能已通过测试版在网站及iOS、安卓应用上线,暂不对欧盟和英国用户开放,用户可关闭或删除记忆,X平台上的Grok也将逐步具备此功能 。
💡 5000 亿美元大项目版图扩张,消息称 OpenAI、软银考虑在英投资“星际之门”
IT之家 | 阅读原文

据英国《金融时报》4月17日报道,OpenAI与软银主导的“星际之门”项目,致力于推动美国AI产业发展,正筹集1000亿美元用于AI基础设施建设,预计四年内总投资达5000亿美元。该项目初期投资集中在美国,未来考虑扩展至英国,因英国提升数据中心电力获取计划吸引了它。OpenAI称英国是其在美国外最重要市场之一,此外,德国和法国也是值得关注的市场。近几个月OpenAI游说欧洲各国相关事宜,欧洲委员会也有相应举措。