跳转至内容

讨论

150 主题 150 帖子

围绕真实问题的技术交流与经验分享

此版块可通过社交网络公开平台使用用户名 [email protected] 进行关注

  • OVH 2026 VPS 产品线几乎售罄!

    ovh vps
    1
    0 赞同
    1 帖子
    24 浏览
    R
    OVH 高端 VPS 套餐已全线售罄。官方将此归因于产品竞争力,并对社区用户及全体员工表示感谢。 [image: 063bc221-ab6c-4fc2-8e81-08409a4ec46e.webp]
  • Codex 桌面端大更新:从写代码到操控电脑,全流程自动化

    codex ai编程
    1
    0 赞同
    1 帖子
    23 浏览
    R
    OpenAI Codex 桌面端迎来重大更新,能力边界从「写代码」扩展到「操控电脑」,全流程开发任务可在后台无人值守下自动完成。 核心新增能力: 后台电脑控制:独立操作鼠标与键盘,无需前台监看 内置浏览器:自主查阅文档、调试页面,全程不依赖外部工具 图像生成:集成 gpt-image-1.5 持久记忆 + 定时调度:支持跨会话记忆与任务定时触发 90+ 插件生态:覆盖 Jira、GitLab、CI/CD 等主流开发工作流 [image: 058c967a-03ee-46b5-857a-729af98cefd1.jpg]
  • Anthropic 发布 Opus 4.7:四项核心升级,Token 成本上涨 35%

    anthropic opus-4.7
    1
    0 赞同
    1 帖子
    18 浏览
    R
    Anthropic 正式发布 Opus 4.7,目前最强的公开可用 Claude 模型。(内部仍有更高规格的 Mythos,暂不对外开放。) 本次升级聚焦四个方向: 任务自检:长任务完成后自动执行输出校验再返回结果,显著降低幻觉率。 Token 预算控制:支持设定 Token 上限,模型自主分配思考与工具调用的资源占比,避免无效消耗。 自适应思考深度:根据任务复杂度动态调整推理时长,无需手动配置。 高分辨率图片输入:原生支持高清图像输入。 注意:Opus 4.7 采用新版 Tokenizer,相同内容的 Token 消耗较上一代约增加 35%,使用前建议重新评估成本预算。 基准测试 Opus 4.7 Opus 4.6 GPT-5.4 Gemini 3.1 Pro Mythos Preview Agentic coding (SWE-bench Pro) 64.3% 53.4% 57.7% 54.2% 77.8% Agentic coding (SWE-bench Verified) 87.6% 80.8% — 80.6% 93.9% Agentic terminal coding (Terminal-Bench 2.0) 69.4% 65.4% 75.1% (self-reported harness) 68.5% 82.0% Multidisciplinary reasoning - Humanity’s Last Exam (no tools) 46.9% 40.0% 42.7% (no tools Pro) 44.4% 56.8% Multidisciplinary reasoning - Humanity’s Last Exam (with tools) 54.7% 53.3% 58.7% (with tools Pro) 51.4% 64.7% Agentic search (BrowseComp) 79.3% 83.7% 89.3% (Pro) 85.9% 86.9% Scaled tool use (MCP-Atlas) 77.3% 75.8% 68.1% 73.9% — Agentic computer use (OSWorld-Verified) 78.0% 72.7% 75.0% — 79.6% Agentic financial analysis (Finance Agent v1.1) 64.4% 60.1% 61.5% (Pro) 59.7% — Cybersecurity vulnerability reproduction (CyberGym) 73.1% 73.8% 66.3% — 83.1% Graduate-level reasoning (GPQA Diamond) 94.2% 91.3% 94.4% (Pro) 94.3% 94.6% Visual reasoning - CharXiv Reasoning (no tools) 82.1% 69.1% — — 86.1% Visual reasoning - CharXiv Reasoning (with tools) 91.0% 84.7% — — 93.2% Multilingual Q&A (MMMLU) 91.5% 91.1% — 92.6% — Opus 4.7 相比 4.6 全面提升,但在 BrowseComp(搜索)和 CyberGym(网安)两项上反而略有下滑。Scaled tool use 是 Opus 4.7 唯一明显领先所有对手的项目,体现了新预算控制机制的价值。Mythos 在几乎所有有数据的项目上都是最强,但大量栏位标注 “—”,选择性公开的意味很明显。
  • xChat预计于2026年4月17日推出

    xchat
    1
    0 赞同
    1 帖子
    29 浏览
    R
    xChat:私密、纯粹、安全的对话空间 在 X 上,你可以与任何人畅聊,享受一个专注于对话的私密空间——无广告、无追踪,全程端对端加密。 应用支持超大群聊,一个群组最多可容纳数百名成员(如截图中展示的"Reply Guys"群组,已有 481 名成员),让大规模交流成为可能。 无论你身在何处,都可以跨设备随时发起通话,手机、平板无缝切换,与好友面对面沟通毫无障碍。 注重隐私?xChat 为你提供多重保护:阅后即焚消息支持自定义消失时间(例如设置为 5 分钟);截图拦截功能可在对方试图截屏时显示"屏幕截图已被阻止"的提示,守护你的每一句话。 发错消息也不用担心——消息可撤回或编辑,修改内容对所有人同步生效,让沟通更从容。 所有聊天内容,包括文字、图片、文件(如 PDF),均受到端对端加密保护,真正做到只有你和对方能看到。 打开聊天列表,你的所有对话一目了然,随时掌握最新动态。在 X 上,与任何人对话,从未如此简单、安全。 [image: 65c8e916-d84d-470c-86b8-b33bdba18b01.png] [image: 8c24a04d-0050-4fb5-bf5f-9f190d14e746.webp] [image: a30f6568-99ac-492a-b904-2796579bd992.webp] [image: b524b328-408a-4fd0-8613-b2d02735f73f.webp] [image: 39fce2e0-d5e5-446b-8806-d377c150bd25.webp] [image: e6692371-984a-4026-8762-f744f88a55e0.webp] [image: 567f16ea-4f0b-4906-804a-72ab95757f4a.webp] [image: fc1f1a9a-8967-4e88-b508-c9e99f494652.webp] [image: 025c6c39-d29b-4ac3-a7cc-4c0d1de64854.webp]
  • 阿里百炼「龙虾套餐」(Coding Plan)已新增 Qwen3.6-Plus。

    openclaw
    1
    0 赞同
    1 帖子
    36 浏览
    R
    该模型目前在 LLM Arena Code 榜单中排名第八,整体表现仅次于 Claude、GPT、Gemini 等头部模型,在代码能力方面具备相当强的竞争力。 对于使用 OpenClaw / Agent 进行开发任务的场景来说,这类高代码能力模型的加入,也意味着自动化编程、代码生成与调试的整体效果会进一步提升。 [image: c39b1b60-f22a-4a4c-b6ac-b3896ea0effb.jpg] [image: 4de3ee3e-74d9-422e-a375-e128b292b485.jpg]
  • 0 赞同
    1 帖子
    29 浏览
    R
    1. 导言:追踪划时代的谜团 (Introduction: Tracking the Enigma) 2024年秋季的一个傍晚,我正与妻子驱车行驶在长岛高速公路上。听厌了电台里反复播放的爵士乐后,她将频道切到了《纽约时报》的科技播客“Hard Fork”。主持人正在讨论一部即将上映的 HBO 纪录片——《电子货币:比特币之谜》(Money Electric: The Bitcoin Mystery),该片声称揭开了比特币创始人中本聪(Satoshi Nakamoto)的真实身份。 我瞬间被吸引了。长期以来,我一直认为中本聪的身份是这个时代最伟大的谜团之一。两年前,我甚至曾花数月时间筹备一本关于此课题的书,但很快意识到由于缺乏技术深度而力不从心,最终无奈放弃。听到有人可能终于识别出了这位改变了全球金融、催生了2.4万亿美元产业并积累了巨额财富的天才,我心中交织着职业记者的钦佩与嫉妒。 回到家后,我立刻观看了这部纪录片。虽然 HBO 将矛头指向一名加拿大开发者的证据在我看来非常薄弱,但片中的一个场景引起了我的注意:英国密码学家、比特币运动的领军人物亚当·背(Adam Back)坐在拉脱维亚里加(Riga)公园的长椅上。他穿着棕色大衣,里面的衬衫下摆松散地露在外面,显得有些不修边幅。当导演不经意地提到中本聪的候选人名单并点出 Adam Back 自己的名字时,他的反应极不自然——身体瞬间僵硬,眼神躲闪,左手伴随着尴尬的笑声剧烈抽动。作为一名职业调查记者,我见过无数骗子的“破绽”,Adam Back 的表现让我敏锐地察觉到:他有问题。 2. 第一部分:线索丛林 (Part I: A Series of Clues) 2.1 语言学蛛丝马迹 我开始疯狂钻研中本聪留下的文字资料,特别是芬兰程序员 Martti Malmi 在 2024 年法庭审判中公开的数百封邮件。我发现,中本聪在邮件中频繁混用英式英语拼写和习语。他在比特币创始区块中嵌入了《泰晤士报》(The Times of London)2009年1月3日的头版标题:“财政大臣站在第二轮银行救助的边缘”。这是英国印刷版的标题。这种迹象表明中本聪很可能是英国人,并且与早期**密码朋克(Cypherpunks)**群体关系密切。 2.2 词汇比对分析 通过深入挖掘,我发现 Adam Back 在社交平台 X 和邮件列表中使用的词汇与中本聪有着惊人的重合。 独特词汇/短语 中本聪 (Satoshi) 亚当·背 (Adam Back) menace to the network(网络威胁) 使用 使用 dang(该死/哎呀) 使用 使用 abandonware(弃置软件) 使用 使用 burning the money(销毁货币/烧钱) 使用 使用 partial pre-image(部分前像) 使用 使用 hand tuned(手动调优) 使用 使用 2.3 技术渊源 Adam Back 在 1997 年发明了 哈希现金(Hashcash),这一技术后来成为比特币**工作量证明(Proof of Work)**的核心。尽管 Adam Back 曾提供证据称中本聪在 2008 年 8 月通过邮件联系过他,询问关于哈希现金的引用,但我产生了一个大胆的怀疑:作为一个深谙匿名术的专家,Adam Back 完全可能通过给自己发送这些邮件来制造一个完美的“掩盖故事”。 3. 第二部分:被埋没的路线图 (Part II: Buried Road Map) 3.1 预见比特币的十年 通过翻阅 1997 年至 1999 年间的邮件存档,我发现 Adam Back 在比特币诞生前十年就精准勾勒出了它的雏形。他提出的系统包含了后来比特币的五个核心要素: 隐私性: 保护付款人和收款人的匿名性。 分布式网络: 运行在计算机网络上,无法被单一中心关闭。 稀缺性: 具备内置的防通胀机制。 去中心化信任: 不依赖任何银行或机构。 可验证协议: 所有交易规则公开且可验证。 3.2 解决拜占庭将军问题 对于分布式系统的节点运行,Adam Back 在 1997 年将其描述为节点可以“随来随走”(come and go);而中本聪在白皮书中使用的措辞几乎如出一辙,称节点可以“随意离开并重新加入网络”(leave and rejoin the network at will)。 3.3 能源与通胀方案 两人对于解决计算力提升导致通胀的逻辑完全吻合:必须增加计算难度。更令我惊讶的是,对于比特币能耗过高的质疑,两人的辩护逻辑竟然一致——他们都认为比特币消耗的能源仍低于传统银行系统运作所需的人力和资源成本(“less wasteful than the labour and resource intensive conventional banking activity”)。 4. 第三部分:刑事语言学与 A.I. 证据 (Part III: Forensic Linguistics and A.I. Evidence) 4.1 消失与重现的规律 我观察到了一个令人脊背发凉的“镜像”现象:2011 年 4 月 26 日,中本聪正式销声匿迹。就在这之后不久,此前多年对比特币保持沉默的 Adam Back 却突然开始活跃,重返社区并迅速建立了权势。 4.2 2015年扩容战争 2015 年,中本聪时隔四年再次出现在邮件列表中,针对比特币区块大小的争论表达了支持 Adam Back“小区块”立场的观点。该邮件不仅逻辑与 Adam 一致,甚至公开谴责开发者 Gavin Andresen 和 Mike Hearn 是试图通过“民粹手段”绑架比特币的“轻率”之徒(reckless)。该邮件中频繁使用了 Adam Back 的词汇指纹:widespread consensus(广泛共识)、robust(稳健)、trivial(微不足道)。 4.3 标点与语法指纹:证据的三角定位 我邀请了《纽约时报》AI 项目编辑、资深机器学习工程师 Dylan Freedman 进行计算分析。我们将 34,000 名用户筛选至 1,615 名活跃用户,再缩小到 620 名讨论过数字货币的候选人。这 620 人一共贡献了 134,308 篇 帖子。 通过 A.I. 模型的精确扫描,我们发现了无可辩驳的证据: 连字符错误: 统计显示,中本聪在白皮书中错误地将“proof-of-work”连致化。在数千名开发者中,历史上只有 8 个人犯过同样的语法错误。 WebMoney 交叉验证: 中本聪曾提到过一种冷门的俄国数字货币“WebMoney”。在上述 8 人中,只有 Adam Back 一个人曾在讨论中提到过 WebMoney。这种“三角定位”逻辑在司法调查中极具杀伤力。 误差量化: Adam Back 与中本聪共享了 67 处 完全一致的连字符错误,而排名第二的候选人仅有 38 处。 习惯统计: 中本聪在所有文字中恰好有 5 次 混淆“its”与“it’s”,并有 5 次 将“also”放在句末,这与 Adam Back 的语言习惯完全吻合。 4.4 被揭穿的谎言:关于“Bloody” Adam Back 曾在 2023 年 10 月在 X 上公开否认自己使用过“bloody”这个英式脏话。然而,我从 1998 年的存档中翻出了他的一篇帖子,他当时正抱怨 28.8k 调制解调器的网速:“该死的横幅广告占用了绝大部分带宽!”(bloody banners)。这种刻意的自我掩盖行为通常是心虚的表现。 5. 第四部分:萨尔瓦多的终极对峙 (Part IV: Confrontation in El Salvador) 5.1 现场接触 2026年初,我前往萨尔瓦多比特币大会拦截 Adam Back。此时的他身份敏感,正担任一家新型比特币国库公司的首席执行官,并筹备与 Cantor Fitzgerald 旗下的公司合并上市。根据美国证券法,作为 CEO,他有法律义务向投资者披露任何重大财务信息——包括他是否持有那 110 万枚足以撼动市场的“中本聪金库”。 5.2 酒店房间的质询与“静默期” 我们在酒店房间进行了长达两小时的对话。当我提到想查看他 2008 年与中本聪邮件的**元数据(Metadata)**时,他陷入了漫长的沉默。在我提出请求后的 8 天里,他彻底对我断绝了联系(Ghosting)。这种“无线电静默”在调查中通常意味着触及了最核心的神经。 5.3 关键的“口误” 采访录音记录下的一个瞬间成为了我确信其身份的关键。当时我们正在讨论中本聪。 作者: “中本聪曾说过,‘我更擅长写代码而不是写文章。’(I’m better with code than with words.)” Adam Back: “但我确实说了很多话…… 我的意思是,我不是说我擅长言辞,但我确实在那些邮件列表里唠叨(yakking)了很多。” 在那一刻,他没有用第三人称去评价中本聪,而是以第一人称本能地回应了对我关于“话多话少”的质疑。尽管他随后试图辩解这只是在泛指技术人员,但在我看来,那层精心维护了 17 年的伪装在那一秒钟彻底崩塌了。 6. 结语:真相的轮廓 (Conclusion) 尽管 Adam Back 至今仍坚持“那真的不是我”这一官方立场,但从 1997 年的技术路线图到 A.I. 驱动的语法鉴定,每一枚指纹都指向同一个结论。他不仅发明了比特币的基石,更在过去十几年里,以不同的面孔交替守护着这个去中心化的帝国。 在没有私钥移动的情况下,或许法律永远无法给出一个终极裁决。但在我长达一年的调查终点,那个名为“中本聪”的幽灵,其轮廓已与亚当·背完全重合。 [image: ef90d67f-fc0b-4aa2-b5a1-e29afdc1e1fb.jpg] -------------------------------------------------------------------------------- 制作名单: Aliza Aufrichtig, Molly Bedford, Rebecca Lieberman, Renee Melides 摄影署名: Amir Hamja (The New York Times) 作者简介: John Carreyrou,《纽约时报》商业版资深调查记者。 Dylan Freedman,《纽约时报》A.I. 项目编辑,资深机器学习工程师。 发布日期:2026年4月8日
  • 龙虾(OpenClaw)现在有“脸”了。

    openclaw ai
    1
    0 赞同
    1 帖子
    41 浏览
    R
    Pika Labs 推出了 PikaStream Skill,把「数字人 + 语音克隆 + 视频对话」打包成一个可安装技能,可直接接入 OpenClaw 等 Agent。 这个 Skill 已支持: • 实时生成 AI 数字人(支持自定义形象) • 语音克隆,让 AI 可以“用你的声音说话” • 记忆与个性持续保留 • 在视频对话中执行任务(如查资料、写总结等) 简单来说,就是让 AI 从“会聊天”,进化成“有形象、会说话、还能干活”的数字分身。 GitHub: https://github.com/Pika-Labs/Pika-Skills
  • Gemini App 现在已经支持“记忆导入”了。

    google-gemini
    1
    0 赞同
    1 帖子
    36 浏览
    R
    只需复制 Gemini 提供的提示词到其他 AI 助手中,即可提取当前 AI 的上下文记忆;随后将生成的记忆文本粘贴回 Gemini App,即可完成记忆迁移。 整个过程无需复杂操作,相当于在不同 AI 之间“搬家上下文”,方便你无缝延续对话与个性化设置。 [image: b94707e7-490e-48f7-82e2-e4c859304e34.jpeg]
  • 快来免费领取“龙虾 OpenClaw”!

    openclaw ai
    1
    0 赞同
    1 帖子
    46 浏览
    R
    如果你还不知道,现在在「飞书 Aily」中可以免费领取智能伙伴,已支持国内主流大模型,并且提供免费调用额度。 其底层基于 OpenClaw。领取后,你可以直接通过飞书对话为它配置网络环境,甚至安装 Xorg 桌面,实现 GUI 自动化操作——例如使用图形化浏览器,相比无头浏览器更接近真实用户行为。 [image: 0e675d70-43de-4ef0-a80d-31250137eefe.jpeg] [image: 64fa1997-4789-4220-9f89-5ee44e38c39a.jpeg]
  • Anthropic 发布 Claude Mythos Preview:能力全面领先,但暂不对外开放

    anthropic
    1
    0 赞同
    1 帖子
    39 浏览
    R
    编程能力评测 评测项目 Claude Mythos Preview Claude Opus 4.6 GPT-5.4 Gemini 3.1 Pro SWE-bench Verified 93.9% 80.8% — 80.6% SWE-bench Pro 77.8% 53.4% 57.7% 54.2% SWE-bench 多语言 87.3% 77.8% — — SWE-bench 多模态 59% 27.1% — — Terminal-Bench 2.0* 82% 65.4% 75.1% 68.5% 列表推理与知识评测 评测项目 Claude Mythos Preview Claude Opus 4.6 GPT-5.4 Gemini 3.1 Pro GPQA Diamond 94.5% 91.3% 92.8% 94.3% MMMLU 92.7% 91.1% — 92.6%–93.6% USAMO(数学竞赛) 97.6% 42.3% 95.2% 74.4% GraphWalks BFS 256K-1M 80.0% 38.7% 21.4% — HLE(无工具) 56.8% 40.0% 39.8% 44.4% HLE(有工具) 64.7% 53.1% 52.1% 51.4% CharXiv 推理(无工具) 86.1% 61.5% - - CharXiv 推理(有工具) 93.2% 78.9% - - OSWorld 79.6% 72.7% 75.0% — BrowseComp 测试时算力扩展 [image: 263c1a75-163a-4b10-820d-8127f511d252.png] 图表显示,随着允许模型使用的 token 总量增加(借助上下文压缩技术),BrowseComp 准确率持续提升。Claude Mythos Preview 在仅用约 0.2M token 时便达到 84.9%–86.9%,远优于其他模型。 事实性基准测试得分 [image: 333ba501-dae4-47ba-8dd3-e717ff019fa1.png] 在 100Q-Hard、Simple-QA-Verified、AA-Omniscience 三项事实性基准测试中,Claude Mythos Preview(橙红色)在"正确"率上均大幅领先(分别达 60.1%、70.7%、70.8%),同时"不确定"和"错误"比例更低,说明其校准性优于此前所有模型。 关于发布计划的声明 Anthropic不打算将 Claude Mythos Preview 面向公众全面开放,但最终目标是让用户能够安全地大规模部署 Mythos 级别的模型——不仅用于网络安全目的,也为了此类高能力模型所能带来的无数其他价值。为此,Anthropic需要在开发网络安全(及其他领域)防护措施上取得进展,以检测并拦截模型最危险的输出内容。Anthropic计划随即将推出的 Claude Opus 新模型一同发布新的安全防护机制,从而在一个风险级别低于 Mythos Preview 的模型上持续改进和完善这些机制。