⭐ 今日热点
💡 亚马逊推出全新 AI 语音模型 Nova Sonic,叫板 OpenAI 和谷歌
IT之家 | 阅读原文

4月9日,亚马逊发布全新AI语音模型Nova Sonic,通过Bedrock平台以全新双向流式API接入用户。亚马逊称其“最具成本效益”,价格比OpenAI的GPT-4o便宜约80%。该模型部分组件已支持Alexa+ 。在多项基准测试中表现出色,如多语言LibriSpeech测试平均单词错误率仅4.2% ,在增强多方互动测试中单词错误率准确率比GPT-4o-transcribe高出46.7%,平均感知延迟1.09秒,比GPT-4o快。它是亚马逊AGI战略一部分,未来还将推出更多多模态AI模型 。
🌟 技术突破
💡 超仿真:全球首款可拉伸电子皮肤触觉传感器产品亮相,能感知 1 克物体所产生的力
IT之家 | 阅读原文

4月8日消息,全球首款可拉伸电子皮肤触觉传感器产品亮相。该产品超仿真设计,能拉伸、揉搓,每平方厘米部署400个传感器,可贴合不规则物体表面,耐用性高,破损不影响其他区域。最小能感知1克物体产生的力,采用多层结构,通过受力形变改变电学性质来感知受力。今年政府工作报告提出发展具身智能,该传感器可助机器人具备感知和理解世界的能力 。
💡 生图加入CoT,性能提升80%!微软港中文打造天才画手
新智元 | 阅读原文

微软和港中文研究者提出ImageGen-CoT技术,让AI绘画前先思考推理。它采用两阶段推理,构建高质量数据集训练模型,还探索多种测试扩展策略。实验显示,该技术显著提升模型性能,如SEED-X微调后在T2I-ICL任务上性能提升80%,在多个测试中表现亮眼,还通过提升理解能力让生成图像更符合要求 。
💡 三个LLM顶一个OpenAI?2亿条性能记录加持,路由n个「小」模型逆袭
新智元 | 阅读原文

论文提出并开源针对router设计的RouterEval基准,整合8500+个LLM的2亿条性能记录,将大模型路由问题转化为分类任务。路由LLM范式通过智能调度实现多模型协同,有异构兼容等优势。其采用三级架构,相比MoE有协作粒度和系统开放性突破。研究揭示Model-level Scaling Up现象,发现弱模型逆袭效应等,还指出了数据壁垒等挑战。
💡 谷歌 AI 模式新增多模态搜索,支持图像提问功能
IT之家 | 阅读原文

4月8日消息,谷歌为搜索实验项目“AI模式”引入多模态搜索功能,支持图像提问。该功能由Google Lens多模态能力支持,能理解图像场景,用“query fan-out”技术提供详细信息。用户可上传或拍摄照片提问,还能追问缩小范围。此前AI模式仅对高级订阅用户开放,现面向数百万实验室计划用户开放。此模式上月推出,旨在与其他流行服务竞争,谷歌还会持续优化拓展。
💡 谷歌 Gemini AI 升级文件分析功能,将支持 3GP、AVI、MP4 等 8 种视频格式
IT之家 | 阅读原文

4月8日,科技媒体Android Authority分析APK文件发现,谷歌Gemini即将升级文件分析功能。现有功能不支持视频处理,升级后将新增支持3GP、AVI等8种主流视频格式,用户可批量上传但总时长设限,免费账户限制或更严格。此外,代码库出现“GitHub”附件类型字段,意味着Gemini可能直接解析代码仓库,助力开发者高效审查项目文件,不过技术细节待验证 。
💫 企业动态
💡 三星进军 AI 机器人领域,Ballie 本周公开亮相
IT之家 | 阅读原文

4月8日,三星通过官方Instagram预告本周将展示Ballie机器人,可能公布发售细节。Ballie是集成SmartThings平台的AI伴侣机器人,功能多样。虽定价和具体发布日期未公布,但2025年上半年将在美国发售。今年1月CES 2025大展上它曾亮相,移动灵活,投影仪有升级,还配备全球首款可切换镜头投影仪,能远近投影 。
💡 微软 Win11 Copilot 应用新功能:文件搜索与视觉助手开启测试
IT之家 | 阅读原文

在微软成立 50 周年之际,宣布 Windows 11 系统中 Copilot 应用新功能并向 Windows Insider 计划用户公测。Copilot 文件搜索功能可让用户查找电脑文件、询问文件内容,支持多种文件类型,全球可用;Copilot 视觉助手能为用户提供应用内内容的额外信息,通过语音指导操作,目前仅美国地区提供。功能逐步推出,并非所有用户都能立即使用。
💡 20人创业神话,老黄数亿刀收购!AI大牛贾扬清、白俊杰被曝入职英伟达
新智元 | 阅读原文

英伟达斥资数亿美元收购成立2年、20人规模的Lepton AI 。Lepton AI是黄金级AI云服务商,通过创新技术调度GPU资源,运算速度快且延迟低。其联创贾扬清、白俊杰入职英伟达。贾扬清开发过Caffe,有丰富履历。此次收购完善英伟达AI布局,助其拓展云计算业务,引入人才力量。此外,还列举英伟达对多家公司的投资,以及当前AI数据中心过剩背景。
💡 斯坦福最新 AI 研究报告出炉:中美模型质量差距缩小至 0.3%
IT之家 | 阅读原文

《2025年人工智能指数报告》显示,人工智能领域竞争激烈。中国高性能AI模型发展迅猛,缩小了与美国差距。世界顶级AI模型性能差距减小,小模型表现出色。如今多数强大模型由工业界开发,美国是最大生产国。同时,“开放权重”模型增长显著。训练模型的能源、计算资源和数据集规模不断翻倍,但小型模型优势凸显,成本下降。不过,生成式人工智能仍有隐性偏见等问题 。
💡 Llama 4爆料大反转,没在测试集上训练!华人员工实名辟谣,LeCun出面救火
新智元 | 阅读原文

近日,Meta Llama 4“训练作弊”爆料引发关注,Meta 研究科学家主管 Licheng Yu 等多人实名辟谣,首席 AI 科学家 Yann LeCun 也力挺。但 Llama 4 实际表现遭吐槽,在多个测试中成绩不佳。此外,lmarena.ai 团队公开 2000+组对战数据,直指 Meta 提交模型有问题。有传言称因竞品将发布,Meta 匆忙推出 Llama 4,其设计与开发者需求有差距,团队似乎更注重赋能自家平台。
💡 斯坦福2025 AI指数出炉!中美AI终极对决差距仅剩0.3%,DeepSeek领衔
新智元 | 阅读原文

2025年斯坦福HAI报告发布,剖析全球AI趋势。中美顶级模型性能差距缩至0.3%,中国快速追赶;DeepSeek领衔的开放权重模型逼近闭源巨头。大模型性能趋同,推理成本暴降280倍,小模型性能提升、参数减少142倍。美国在模型研发数量上领先,中国学术论文和专利申请量领跑。此外,报告还涵盖AI在各方面的进展、投资、应用、教育、监管等情况 。
✨ 行业观点
💡 皮尤报告:美国公众对 AI 态度消极
IT之家 | 阅读原文

4月9日皮尤研究中心报告显示,超5000名美国成年人及1000名AI专家参与调查。专家对AI前景普遍乐观,普通公众态度消极。43%受访者认为AI广泛使用可能伤害自己,仅24%认为有益。35%的人觉得未来20年AI对美国有负面影响。9to5mac称,苹果若确保不滥收集数据、设计友好界面,有机会开发易用AI功能,提升用户生活质量 。
💡 Llama 4五大疑点曝光,逐层扒皮!全球AI进步停滞,NYU教授称Scaling彻底结束
新智元 | 阅读原文

一位AI公司CEO扒皮Llama 4的五大疑点,包括上下文性能差、发布时间存疑等。NYU教授马库斯称Scaling已结束,LLM无法可靠推理,大语言模型不是解决之道。同时,AI发展面临资金、计算资源等问题,美国科研产出或下降8%-12%。此外,战争、资本化不足等因素也可能阻碍AI进步,生成式AI或经济回报不佳,行业泡沫可能破灭 。