-
2025全球大模型应用报告:红海混战「忠诚度」瓦解,用户脚踏4.7条船!
想知道全球各大企业对大模型是如何使用的大模型的,今年和去年有哪些不同,请看Artificial Analysis发布的2025年第一季度AI应用报告,把握AI发展的潮流趋势。2025年上半年,大模型正在从技术边界走向生产现实。横跨欧美亚上千家企业的最新调研揭示,生成式AI已不再只是研发试验品,45%的企业已将其部署到生产环境中。工程研发、客户支持和营销成为AI最活跃的前线!这份来自一千多人的汇总报…... -
GPT-5数字母依然翻车!马库斯:泛化问题仍未解决,Scaling无法实现AGI
大模型好不容易学会数r,结果换个字母就翻车了?而且还是最新的GPT-5。杜克大学教授Kieran Healy表示,自己让GPT-5数了数blueberry里有几个b,结果GPT-5斩钉截铁地回答3个。抓马的是,GPT-5刚发的时候还有网友让它数过blueberry里的r,结果数对了。虽然博主想到了换掉strawberry,却没成想让GPT-5变得“没有B数”的,竟然不是单词而是字母……看来香槟还是…... -
全景式盘点!一文了解全球55家AI蛋白质公司(团队+模型+赛道)
2024年,诺贝尔化学奖颁给了蛋白质结构预测与设计领域。 这一奖项不仅是对蛋白质结构预测与设计技术的肯定,更催化了整个蛋白质赛道和生命科学领域的范式变革。 如今,AI+蛋白质研究不仅从单体结构预测走向了复合物预测,同时也从结构预测走向了功能创造。海内外资本、企业纷纷向AI+蛋白质领域抛来了橄榄枝,创下多笔巨额融资。 2024年,诺贝尔化学奖得主David Baker创办的Xaira Therape…... -
以色列神秘部队孵化,视频AI黑马三天狂揽百万用户!红杉豪掷1亿美元押注的下一匹独角兽?
一家成立不足两年的以色列公司Decart突然以31亿美元估值拿下1亿美元B轮融资,领投方是红杉资本,Benchmark、Zeev Ventures等顶级风投也争相入局。更疯狂的是其产品Oasis上线三天突破百万用户,实时生成视频延迟压到50毫秒内,成本仅每小时25美。当同行还在为10秒视频烧百美元时,这家神秘公司竟把成本砍去99%,简直给烧钱成瘾的AI圈泼了盆冰水。11个月估值翻6倍这已是Deca…... -
41个榜单SOTA!智谱最新开源GLM-4.5V实测:看图猜地址、视频秒变代码
智谱基于GLM-4.5打造的开源多模态视觉推理模型GLM-4.5V,在42个公开榜单中41项夺得SOTA!其功能涵盖图像、视频、文档理解、Grounding、地图定位、空间关系推理、UI转Code等。这半年,多模态大模型已经成为各家的标配,但似乎功能都有点趋同,玩起来都有点腻了。不过,今晚智谱最新开源的GLM-4.5V视觉推理模型,带来了非常多的惊喜!两周前,智谱发布GLM-4.5,这个融合ARC…... -
刚刚,OpenAI拿下IOI金牌,仅次于前五名人类选手!参赛推理模型才夺得IMO金牌
一觉醒来,OpenAI 的大模型又完成了一项壮举!在全球顶级编程赛事之一 ——2025 年国际信息学奥林匹克(IOI)中,OpenAI 的推理模型取得了足以摘得金牌的高分,并在 AI 参赛者中排名第一!IOI 2025(即第 37 届国际信息学奥林匹克)在玻利维亚的苏克雷举行,7 月 27 日正式开幕,并已于 8 月 3 日落下了帷幕。在此次赛事中,中国队大获全胜,全员金牌夺冠。而就在不久前,Op…... -
李飞飞押注的「世界模型」,中国自研Matrix-3D已抢先实现了?
中国自研世界模型Matrix-3D只需单张图就能生成可自由探索的3D世界,不仅效果对标李飞飞的World Labs,而且还能实现更大范围的探索空间,率先进入AI理解世界的前沿领域。一花一世界,一叶一菩提。千百年来,人类只能凭想象勾勒图画之外的世界,梦境与现实之间始终隔着一层不可触及的纱幕。而今天,当AI的力量被无限延伸,这层纱幕终于被揭开——Matrix-3D,一个真正从「一图生万境」的世界模型!…... -
LLM总是把简单任务复杂化,Karpathy无语:有些任务无需那么多思考
随着推理大模型和思维链的出现与普及,大模型具备了「深度思考」的能力,不同任务的泛用性得到了很大的提高。借助思维链,大模型能够对任务进行深入分析,完成任务规划与拆解,从而胜任长周期、复杂度高的工作。同时,我们也能更直观地了解模型的推理与分析过程,从中发现执行环节中的问题,并有针对性地调整指令,以更高效地完成目标。可以说,有了「深度思考」的推理模型,才有了现在拥有多种辅助功能与自主能力的 AI 智能体…... -
GPT-5 测试被质疑作弊,故意避开难题刷高分?图表「生成」还得看 OpenAI
人不能同时踩两个坑,但 OpenAI 做到了。GPT-5 发布会上,OpenAI 因为一张比例失调的图表被全网群嘲。后续他们火速更新图表,目前已经调整好了比例。表面上看,GPT-5 在 SWE-bench Verified 测试中拿下 74.9% 的成绩,似乎压了 Claude 一头,但知名分析机构 SemiAnalysis 却发现这图表里还藏着别的猫腻。(左为新版图表,右为旧版出错图表)给吃瓜的…... -
一觉醒来,GitHub没了?CEO辞职,微软接管,开发者天塌了
GitHub变天了!今天起,它不再独立。它再也不是那个为开发者的自由而生的平台,而成了微软AI代理工厂的一部分。CEO宣布辞职,出走创业。终于,一个时代落幕了。一觉醒来,独立的GitHub没了!CEO也没了!这也太戏剧性了。今天一早,一则重磅新闻震撼了整个开发者圈子——GitHub CEO Thomas Dohmke突然宣布辞职,并透露GitHub将不再独立运营,而是整体并入微软新成立的CoreA…... -
是「福尔摩斯」,也是「列文虎克」,智谱把OpenAI藏着掖着的视觉推理能力开源了
光看图,你能猜出这是哪儿吗?当同事出差回来扔到群里这么一张图,我们也是猜了半天,但毫无头绪。直到另一位同事把图扔给智谱的新模型 ——GLM-4.5V,这个谜团才解开。把照片截图传给 GLM-4.5V(避免模型利用照片的 EXIF 元数据),它很快就推理出了结果。没错,图里的地方是多瑙河畔。尽管同事拍照的角度和风格和小某书上的精美照片大相径庭,但智谱的新模型还是通过深度分析给出了准确答案。 你可能要…... -
苹果 AI 下半场:年底问世的新 Siri,要彻底改变 iPhone 的交互
从上周开始,我们就开始看到一些关于苹果在人工智能领域的长期规划开始浮出水面:从名为 AKI、力求在 iPhone 端侧打造「类 ChatGPT 搜索体验」的答案引擎,到本周目标指向 AI Agent 能力的「新 Siri」概念爆出。无数消息都指向了一个目标:「重生」。从各路消息来看,Siri 的重生不是一次性的「大爆炸」,而是一个精心设计、持续好几年的分步计划。这既是因为技术太复杂,也是一种聪明的…... -
GPT-5编程成绩有猫腻!自删23道测试题,关键基准还是自己提的
别急着用GPT-5编程了,可能它能力没有你想象中那么强。有人发现,官方测试编程能力用的SWE-bench Verified,但货不对板,只用了477个问题。什么意思呢?我们知道,SWE-bench是评估模型/智能体自主编程能力的一个通用且常用的指标。而SWE-bench Verified作为它的子集,本来一共有500个问题。现在相当于OpenAI自行省略的那23个问题,自己搞了个子集的“子集”来评…... -
OpenAI夺金IOI,但输给3位中国高中生
刚刚,OpenAI官宣:IOI金牌收入囊中!其推理模型在今年IOI线上竞赛中成绩刷新纪录:总分533.29,在全球330名人类选手中总排名位列第六;而在所有AI参赛者中,稳居第一。PS:AI没比过的五个人里,有三个都是咱中国人,分别是刘恒熙(宁波市镇海中学)、范斯喆(浙江省诸暨市海亮高级中学)、陈昕阳(杭州第二中学)。有意思的是,OpenAI表示,这次并未为IOI训练新的参赛模型,而是集成了多个通…... -
第一个能帮你做生意的Agent来了。
全世界可能是第一个,能做生意的Agent来了。这,就是阿里国际站最近升级的Accio Agent。网址在此:https://www.accio.com/这是一个面向外贸、面向海外的tob产品,所以国内可能知道的人并不是很多。但其实,Accio已经默默攒了200万企业级客户了。ToB领域,200万客户,这是什么水平,大家懂得都懂。。。我之前因为刘世奇,认识了阿里国际站,我自己本身就对外贸非常感兴趣,…...