GPT-5.5 Instant 健康智能突破：2.3亿周活用户，医生评价超人类

2026-06-18

AI新闻主编

GPT-5.5 Instant 在健康评估中达到前沿模型水平，医生评价其回答超过人类医生，事实性问题率两个月下降 71%，向所有免费用户开放。

GPT-5.5 Instant 健康智能突破：医生评价超越人类，事实性问题率下降71%

健康是 ChatGPT 最有意义的应用场景之一，每周有超过 2.3 亿人通过 ChatGPT 获取健康信息：理解检查报告、准备就诊、管理保险、构建健康习惯等。OpenAI 宣布 GPT-5.5 Instant 在该领域取得重大突破：HealthBench Professional 评估达到前沿 Thinking 模型水平，3,500 份对比评估中医生评价其回答优于人类医生，生产流量中事实性问题率两个月下降 71%。GPT-5.5 Instant 已向所有 ChatGPT 免费用户开放。

核心能力提升

GPT-5.5 Instant 在健康领域实现了实质性进步：更好地识别何时需要紧急护理、询问相关背景信息、解释不确定性、让复杂信息更易理解。在最严苛的健康评估中，GPT-5.5 Instant 现在达到了与前沿 Thinking 模型相当的水平。

关键数据：

在 HealthBench 和 HealthBench Professional 的综合评估中，GPT-5.5 Instant 与最新前沿模型持平
3,500 份对比评估中，医生认为 GPT-5.5 Instant 的回答在准确性、沟通、完整性、指令遵循和健康决策方面优于人类医生
基于隐私保护的实时监测（每周数十亿条消息），事实性问题率在最近两个月下降 71%

260 位医生的全球网络

OpenAI 与遍布 60 个国家、49 种语言、26 个专科的 260+ 位医生合作。迄今为止，医生已评审超过 70 万份模型回答样本。平均每隔几分钟就有一位医生评审一份新回答。这些评审反馈形成评估标准，帮助研究者衡量模型在真实健康场景中的进展。

GPT-5.5 Instant 已向所有 ChatGPT 免费用户开放（受使用限制约束）。

GPT-5.5 Instant 在健康领域的突破——尤其是医生评价"超过人类医生"和 71% 事实性问题降幅——标志着 AI 在医疗健康这个"高水位线"领域达到了消费者级可用的关键节点。每周 2.3 亿人次的健康咨询量本身就说明市场需求已被验证。

对中国市场而言，DeepSeek、豆包、百度文心等在健康咨询场景的应用尚处于早期。国内 AI 在医疗健康领域的差距不仅在于模型能力，更在于缺少类似于 OpenAI 的"70 万+ 医生评审数据飞轮"——这种"模型能力 × 专家评估 × 持续迭代"的闭环是国内竞品需要重点构建的核心能力。260 位医生的全球评审网络和 HealthBench 评估体系，为中国 AI 医疗产品的质量建设提供了可参照的范本。

后续值得关注：

免费开放的影响：GPT-5.5 Instant 向所有免费用户开放，是否会加速全球 AI 健康咨询的普及？
国内 AI 医疗对标：中国 AI 公司在医疗健康领域的评估体系如何对标 HealthBench？
260 位医生网络：类似规模的专家评审体系在国内的可行性
审批与监管：AI 健康能力的提升是否会推动医疗 AI 的监管框架更新？

用户评价

加载评价中...