-
GPT-5、Grok 4、o3 Pro都零分,史上最难AI评测基准换它了
前沿 AI 模型真的能做到博士级推理吗?前段时间,谷歌、OpenAI 的模型都在数学奥林匹克(IMO)水平测试中达到了金牌水准,这样的表现让人很容易联想到 LLM 是不是已经具备了解决博士级科研难题的推理能力?然而,现实可能并不如想象中那么乐观。AAI,一个专注于超智能和高级 AI 系统研究的机构,近期提出的一个新基准 FormulaOne,让一众大模型集体得零分,包括 GPT-5、o3 Pro、…... -
谷歌版小钢炮开源!0.27B大模型,4个注意力头,专为终端而生
谷歌开源Gemma 3 270M闪亮登场!只需几分钟即可完成微调,指令遵循和文本结构化能力更是惊艳,性能超越Qwen 2.5同级模型。发布当天,网友也懵了:以为是270B,结果居然才0.27B。此模型小巧又高效,可以直接在浏览器里本地运行,不用联网,也能生成有创意的内容,比如睡前故事。不仅如此,还有人使用这款迷你模型构建了自己的OCR应用程序。上传一张图片或PDF文件,即可用LLM即时将其转换为结…... -
反击AI论文!arXiv每年拒掉2%造假内容,自动化工具加入审核
AI生成论文泛滥成灾,arXiv平台看不下去了——紧急升级审核机制,用自动化工具来检测AI生成内容。Nature最新发现,原来每年竟然都有2%的论文会因为AI使用被拒?!比如像,bioRxiv和medRxiv每天都要拒绝十多篇公式化AI手稿,每个月就高达7000多份。本来是方便快速分享成果的预印本平台,现已成为了AI内容的温床。一方面AI写作泛滥成灾,另一方面又要确保不会误伤到合理的AI英语润色需…... -
腾讯AI团队最新研究戳穿AI“智力”泡沫:百万上下文正在误导所有人
AI领域一度陷入“上下文窗口”的军备竞赛,从几千token扩展到数百万token。这相当于给了AI一个巨大的图书馆。但这些“百万上下文”的顶级模型,它究竟是真的“理解”了,还是只是一个更会“背书”的复读机?最近,一篇由腾讯微信AI团队主导的研究论文,给我们提供了一个相当犀利的视角来审视这个问题。这篇论文介绍了一个名为PRELUDE的评测基准,它像一面镜子,照出了当前大模型能力的真相,或许我们一直以…... -
竞购 Chrome,正面竞争 OpenAI,Perplexity 为什么要做 AI 浏览器?
今年 6 月,The Browser Company 向 Arc 用户开放了浏览器 Dia 的 Beta 测试。上个月,Perplexity 新推出了自己的 AI 原生浏览器 Comet,随后 OpenAI 也宣布计划在未来几周发布浏览器。而就在这周,Perplexity 更是向 Google 母公司 Alphabet 提出以 345 亿美元收购 Chrome 的邀约,这一出价甚至超过了 Perp…... -
桌面端已经过时了,这个 AI 直接在手机开了 Agent 商店
大家好我是歸藏(guizang),今天带来漂亮又实用的 Macaron 的介绍和体验。前几天发现一个有意思的应用 Macaron,靠颜值就吸引了我,整个设计风格非常的阳光而且高级,尤其是里面的图标,很好看。看了一下应用的介绍,产品的功能主要包括两部分:首先是一个马卡龙形象的 AI 陪伴聊天personal agent ,他有长时间的记忆能力,不需要单独操作就可以记住你的小习惯和一些喜好。第二部分是…... -
To B 领域第一批吃 AI 螃蟹的人,复盘了「AI 落地」的真相和方法论
如果你是一名正在投身 AI 浪潮的创业者,或者一个正在思考,如何利用 AI 改造现有业务的从业者,那么 G7 易流 CEO 翟学魂的经历,或许能给你带来一些重要的启示。他为观察这场AI如何重塑业务、组织、人才、行业格局的变革提供了一个独特的视角。G7 易流是中国最大的公路货运行业 IoT SaaS 服务提供商。大模型浪潮一开始,他们就投身其中,试图开发行业垂直大模型。但不到半年,就果断放弃了。翟学…... -
速递|Reddit创始人押注840万!Palabra攻克AI语音翻译“拟真实时”难题
图片来源:Palabra一家名为Palabra AI 的初创公司正在开发 AI 语音翻译引擎,致力于解决教学大型语言模型(LLMs)理解多种语言这一颇具挑战性的难题。如今,LLMs 使文本语言转换变得更容易,但 Reddit 联合创始人亚历克西斯·奥哈尼安指出,语音翻译并非如此简单。奥哈尼安表示:"AI 可以生成内容和翻译文本。但[语音]翻译是个独特难题,因为它需要实时语言切换,同时声音…... -
GPT-5超越人类医生!推理能力比专家高出24%,理解力强29%
GPT-5比人类医生还会看X光片?!最新研究显示,GPT-5对医学影像的推理和理解准确率分别比人类专家高出24.23%和29.40%。来自埃默里大学医学院的研究团队把GPT-5和GPT-4o以及更小的GPT-5变体(GPT-5-mini、GPT-5-nano)进行了比较,分析它们在医疗领域处理多模态信息的能力。通过一系列标准化测试发现GPT-5在所有测试中的表现都比其他模型好,尤其是在MedXpe…... -
越可靠的AI就越人机,牛津大学:高情商模型错误率显著增加
情绪价值这块儿,GPT-5让很多网友大呼失望。免费用户想念GPT-4o,也只能默默调理了。但为什么升级后的GPT-5,反而变得“不近人情”了呢?牛津大学一项研究的结论,可以来参考看看:训练模型变得温暖且富有同理心,会使它们变得不太可靠且更加奉承。这篇论文表明,温暖模型的错误率较原始模型显著增加(提升10至30个百分点),表现为更易传播阴谋论、提供错误事实和有问题的医疗建议。纳尼?意思是智商和情商不…... -
Y Combinator S25 全面盘点:108 家初创 AI 公司,谁是下一匹黑马?
2025 年有望成为 AI Agent 之年。2025 年,人工智能的叙事已经不再靠“模型突破”来驱动,而是进入了“应用激战区”。硅谷著名孵化器 Y Combinator 在官网上直言——“2025 年有望成为 AI Agent 之年。”这种判断背后的逻辑很直接:AI 不再只是后台算法,而是开始在前台变成“员工”“助手”,接管具体业务流程。目前,YC Summer 2025 招募已结束,夏季路演活…... -
笑死,人形机器人运动会全是鬼畜名场面!这锅粥大家来趁乱喝了吧
天啊,首届人形机器人运动会,现场乱成一锅粥了。宇树机器人勇夺1500米长跑金牌,但撞人还逃逸了(来自抖音@宅生同学)。摔得一片狼藉就算了,好不容易靠自己鲤鱼打挺站起来的机器人,还被救场的人类一扒拉又摔倒了。机器人OS:算了,摆烂吧。队内突然开始抢球,捎带着队友和对手,全部摔倒滚在一起。拳击手突然倒地,你以为是意外,其实是专门设计的嘲讽小连招——那年我双手插兜不知道什么是对手。还有长跑的宇树,马上要…... -
谷歌在上海办了场 AI 嘉年华,开发者们却说像逛「AI 基地」
8 月 13 日,Google I/O Connect China 2025——Google 开发者大会在上海拉开帷幕。来自 Google 全球不同领域的专家,为中国出海开发者们带来 AI 驱动下的前沿技术、创新开发工具以及全球化平台的最新动态。比起纯粹的开发者大会,中国这场 I/O Connect 充满了更多的「嘉年华」属性。在现场展示区,可以看到来自不同国家的开发者们一早排起长队,积极感受「A…... -
实测Perplexity Pro平替模型,免费开源仅4B
有趣,一款仅4B大小的开源模型Jan-v1,居然声称能平替Perplexity Pro。并且完全免费,支持本地部署。官方还说,Jan-v1的SimpleQA准确率高达91%,在本地运行的环境下性能比“正主”Perplexity Pro更强。这么狂妄,背后必有高人指点。官方介绍Jan-v1基于Qwen3-4B-Thinking,针对推理和工具使用进行了微调,可用于网络搜索和深度研究。就连Qwen也转…... -
MIT华人辍学生22岁拿下2100万美元,录个屏就能生成AI员工
你有没有发现一个奇怪的现象?AI现在可以帮你生成音乐,把自拍照变成文艺复兴风格的肖像画,甚至能帮你预订晚餐。但如果你让它处理发票对账、订单录入或者文件验证,它就开始抓瞎了,最后这些活还是得靠某个打开了15个浏览器标签页、有着超强耐心的员工来完成。这种巨大的反差让我开始思考:为什么AI在创意领域表现得如此出色,却在最基础的重复性工作上束手无策?我发现这个问题的答案其实很简单,也很深刻。我们正处在现代…...















