🩺AI医疗评估新标杆:HealthBench发布,助力AI改善人类健康
HealthBench是由OpenAI联合262位来自60个国家的医生共同打造的AI医疗评估基准,包含5000个模拟真实医疗对话,旨在更有效地评估AI系统在医疗健康领域的表现。HealthBench通过医生创建的评分标准来评估模型回复,包含48,562个独特的评估标准,涵盖紧急情况、处理不确定性、全球健康等七个主题。评估结果显示,OpenAI的最新模型在HealthBench上的性能提升了28%,且成本效益显著提高,GPT-4.1 nano的成本仅为8月份GPT-4o的1/25。HealthBench还包含HealthBench Consensus和HealthBench Hard两个变体,分别侧重于高验证性和未饱和性。与医生基线相比,最新AI模型的表现已超越专家,但仍有改进空间,尤其是在上下文理解和可靠性方面。HealthBench评估和数据已在GitHub上开源。
(@OpenAI)
via 茶馆 - Telegram Channel
HealthBench是由OpenAI联合262位来自60个国家的医生共同打造的AI医疗评估基准,包含5000个模拟真实医疗对话,旨在更有效地评估AI系统在医疗健康领域的表现。HealthBench通过医生创建的评分标准来评估模型回复,包含48,562个独特的评估标准,涵盖紧急情况、处理不确定性、全球健康等七个主题。评估结果显示,OpenAI的最新模型在HealthBench上的性能提升了28%,且成本效益显著提高,GPT-4.1 nano的成本仅为8月份GPT-4o的1/25。HealthBench还包含HealthBench Consensus和HealthBench Hard两个变体,分别侧重于高验证性和未饱和性。与医生基线相比,最新AI模型的表现已超越专家,但仍有改进空间,尤其是在上下文理解和可靠性方面。HealthBench评估和数据已在GitHub上开源。
(@OpenAI)
via 茶馆 - Telegram Channel