全部标签

Ai资讯

GPT-5、Grok 4、o3 Pro都零分，史上最难AI评测基准换它了

前沿 AI 模型真的能做到博士级推理吗？前段时间，谷歌、OpenAI 的模型都在数学奥林匹克（IMO）水平测试中达到了金牌水准，这样的表现让人很容易联想到 LLM 是不是已经具备了解决博士级科研难题的推理能力？然而，现实可能并不如想象中那么乐观。AAI，一个专注于超智能和高级 AI 系统研究的机构，近期提出的一个新基准 FormulaOne，让一众大模型集体得零分，包括 GPT-5、o3 Pro、…...
谷歌版小钢炮开源！0.27B大模型，4个注意力头，专为终端而生

谷歌开源Gemma 3 270M闪亮登场！只需几分钟即可完成微调，指令遵循和文本结构化能力更是惊艳，性能超越Qwen 2.5同级模型。发布当天，网友也懵了：以为是270B，结果居然才0.27B。此模型小巧又高效，可以直接在浏览器里本地运行，不用联网，也能生成有创意的内容，比如睡前故事。不仅如此，还有人使用这款迷你模型构建了自己的OCR应用程序。上传一张图片或PDF文件，即可用LLM即时将其转换为结…...
反击AI论文！arXiv每年拒掉2%造假内容，自动化工具加入审核

AI生成论文泛滥成灾，arXiv平台看不下去了——紧急升级审核机制，用自动化工具来检测AI生成内容。Nature最新发现，原来每年竟然都有2%的论文会因为AI使用被拒？！比如像，bioRxiv和medRxiv每天都要拒绝十多篇公式化AI手稿，每个月就高达7000多份。本来是方便快速分享成果的预印本平台，现已成为了AI内容的温床。一方面AI写作泛滥成灾，另一方面又要确保不会误伤到合理的AI英语润色需…...
腾讯AI团队最新研究戳穿AI“智力”泡沫：百万上下文正在误导所有人

AI领域一度陷入“上下文窗口”的军备竞赛，从几千token扩展到数百万token。这相当于给了AI一个巨大的图书馆。但这些“百万上下文”的顶级模型，它究竟是真的“理解”了，还是只是一个更会“背书”的复读机？最近，一篇由腾讯微信AI团队主导的研究论文，给我们提供了一个相当犀利的视角来审视这个问题。这篇论文介绍了一个名为PRELUDE的评测基准，它像一面镜子，照出了当前大模型能力的真相，或许我们一直以…...
竞购 Chrome，正面竞争 OpenAI，Perplexity 为什么要做 AI 浏览器？

今年 6 月，The Browser Company 向 Arc 用户开放了浏览器 Dia 的 Beta 测试。上个月，Perplexity 新推出了自己的 AI 原生浏览器 Comet，随后 OpenAI 也宣布计划在未来几周发布浏览器。而就在这周，Perplexity 更是向 Google 母公司 Alphabet 提出以 345 亿美元收购 Chrome 的邀约，这一出价甚至超过了 Perp…...
桌面端已经过时了，这个 AI 直接在手机开了 Agent 商店

大家好我是歸藏（guizang），今天带来漂亮又实用的 Macaron 的介绍和体验。前几天发现一个有意思的应用 Macaron，靠颜值就吸引了我，整个设计风格非常的阳光而且高级，尤其是里面的图标，很好看。看了一下应用的介绍，产品的功能主要包括两部分：首先是一个马卡龙形象的 AI 陪伴聊天personal agent ，他有长时间的记忆能力，不需要单独操作就可以记住你的小习惯和一些喜好。第二部分是…...
To B 领域第一批吃 AI 螃蟹的人，复盘了「AI 落地」的真相和方法论

如果你是一名正在投身 AI 浪潮的创业者，或者一个正在思考，如何利用 AI 改造现有业务的从业者，那么 G7 易流 CEO 翟学魂的经历，或许能给你带来一些重要的启示。他为观察这场AI如何重塑业务、组织、人才、行业格局的变革提供了一个独特的视角。G7 易流是中国最大的公路货运行业 IoT SaaS 服务提供商。大模型浪潮一开始，他们就投身其中，试图开发行业垂直大模型。但不到半年，就果断放弃了。翟学…...
速递｜Reddit创始人押注840万！Palabra攻克AI语音翻译“拟真实时”难题

图片来源：Palabra一家名为Palabra AI 的初创公司正在开发 AI 语音翻译引擎，致力于解决教学大型语言模型(LLMs)理解多种语言这一颇具挑战性的难题。如今，LLMs 使文本语言转换变得更容易，但 Reddit 联合创始人亚历克西斯·奥哈尼安指出，语音翻译并非如此简单。奥哈尼安表示："AI 可以生成内容和翻译文本。但[语音]翻译是个独特难题，因为它需要实时语言切换，同时声音…...
GPT-5超越人类医生！推理能力比专家高出24%，理解力强29%

GPT-5比人类医生还会看X光片？！最新研究显示，GPT-5对医学影像的推理和理解准确率分别比人类专家高出24.23%和29.40%。来自埃默里大学医学院的研究团队把GPT-5和GPT-4o以及更小的GPT-5变体（GPT-5-mini、GPT-5-nano）进行了比较，分析它们在医疗领域处理多模态信息的能力。通过一系列标准化测试发现GPT-5在所有测试中的表现都比其他模型好，尤其是在MedXpe…...
越可靠的AI就越人机，牛津大学：高情商模型错误率显著增加

情绪价值这块儿，GPT-5让很多网友大呼失望。免费用户想念GPT-4o，也只能默默调理了。但为什么升级后的GPT-5，反而变得“不近人情”了呢？牛津大学一项研究的结论，可以来参考看看：训练模型变得温暖且富有同理心，会使它们变得不太可靠且更加奉承。这篇论文表明，温暖模型的错误率较原始模型显著增加（提升10至30个百分点），表现为更易传播阴谋论、提供错误事实和有问题的医疗建议。纳尼？意思是智商和情商不…...
Y Combinator S25 全面盘点：108 家初创 AI 公司，谁是下一匹黑马？

2025 年有望成为 AI Agent 之年。2025 年，人工智能的叙事已经不再靠“模型突破”来驱动，而是进入了“应用激战区”。硅谷著名孵化器 Y Combinator 在官网上直言——“2025 年有望成为 AI Agent 之年。”这种判断背后的逻辑很直接：AI 不再只是后台算法，而是开始在前台变成“员工”“助手”，接管具体业务流程。目前，YC Summer 2025 招募已结束，夏季路演活…...
笑死，人形机器人运动会全是鬼畜名场面！这锅粥大家来趁乱喝了吧

天啊，首届人形机器人运动会，现场乱成一锅粥了。宇树机器人勇夺1500米长跑金牌，但撞人还逃逸了（来自抖音@宅生同学）。摔得一片狼藉就算了，好不容易靠自己鲤鱼打挺站起来的机器人，还被救场的人类一扒拉又摔倒了。机器人OS：算了，摆烂吧。队内突然开始抢球，捎带着队友和对手，全部摔倒滚在一起。拳击手突然倒地，你以为是意外，其实是专门设计的嘲讽小连招——那年我双手插兜不知道什么是对手。还有长跑的宇树，马上要…...
谷歌在上海办了场 AI 嘉年华，开发者们却说像逛「AI 基地」

8 月 13 日，Google I/O Connect China 2025——Google 开发者大会在上海拉开帷幕。来自 Google 全球不同领域的专家，为中国出海开发者们带来 AI 驱动下的前沿技术、创新开发工具以及全球化平台的最新动态。比起纯粹的开发者大会，中国这场 I/O Connect 充满了更多的「嘉年华」属性。在现场展示区，可以看到来自不同国家的开发者们一早排起长队，积极感受「A…...
实测Perplexity Pro平替模型，免费开源仅4B

有趣，一款仅4B大小的开源模型Jan-v1，居然声称能平替Perplexity Pro。并且完全免费，支持本地部署。官方还说，Jan-v1的SimpleQA准确率高达91%，在本地运行的环境下性能比“正主”Perplexity Pro更强。这么狂妄，背后必有高人指点。官方介绍Jan-v1基于Qwen3-4B-Thinking，针对推理和工具使用进行了微调，可用于网络搜索和深度研究。就连Qwen也转…...
MIT华人辍学生22岁拿下2100万美元，录个屏就能生成AI员工

你有没有发现一个奇怪的现象？AI现在可以帮你生成音乐，把自拍照变成文艺复兴风格的肖像画，甚至能帮你预订晚餐。但如果你让它处理发票对账、订单录入或者文件验证，它就开始抓瞎了，最后这些活还是得靠某个打开了15个浏览器标签页、有着超强耐心的员工来完成。这种巨大的反差让我开始思考：为什么AI在创意领域表现得如此出色，却在最基础的重复性工作上束手无策？我发现这个问题的答案其实很简单，也很深刻。我们正处在现代…...