🩺AI医疗评估新标杆：HealthBench发布，助力AI改善人类健康HealthBench是由OpenAI联合262位来自60个国家的医生共同打造的AI医疗评估基准，包含5000个模拟真实医疗对话，旨在更有效地评估AI系统在医疗健康领域的表现

🩺AI医疗评估新标杆：HealthBench发布，助力AI改善人类健康

HealthBench是由OpenAI联合262位来自60个国家的医生共同打造的AI医疗评估基准，包含5000个模拟真实医疗对话，旨在更有效地评估AI系统在医疗健康领域的表现。HealthBench通过医生创建的评分标准来评估模型回复，包含48,562个独特的评估标准，涵盖紧急情况、处理不确定性、全球健康等七个主题。评估结果显示，OpenAI的最新模型在HealthBench上的性能提升了28%，且成本效益显著提高，GPT-4.1 nano的成本仅为8月份GPT-4o的1/25。HealthBench还包含HealthBench Consensus和HealthBench Hard两个变体，分别侧重于高验证性和未饱和性。与医生基线相比，最新AI模型的表现已超越专家，但仍有改进空间，尤其是在上下文理解和可靠性方面。HealthBench评估和数据已在GitHub上开源。

(@OpenAI)

via 茶馆 - Telegram Channel