中文图像编辑迎来新王!UniWorld-V2发布,框选即改、中文字体精准渲染,性能碾压GPT-Image与Gemini
在图像编辑领域,一项颠覆性的技术正在改变游戏规则!兔展智能与北京大学的 UniWorld 团队推出了新一代图像编辑模型 ——UniWorld-V2。这一模型不仅在图像处理的细节控制上超越了 Nano Banana,更在理解中文指令方面表现出色。
UniWorld-V2基于一种创新的视觉强化学习框架 ——UniWorld-R1,该框架首次将强化学习策略优化应用于图像编辑,显著提升了编辑的准确性和灵活性。与传统的监督微调方法相比,UniWorld-R1的设计旨在解决数据过拟合和泛化能力差的问题,让模型在面临多样化编辑指令时能够更好地响应。
举个例子,当用户要求 AI 将一位女生的手势改为 “OK” 时,UniWorld-V2能够精准理解并修改。与之相比,Nano Banana 则未能准确捕捉用户的意图。更令人惊叹的是,在海报编辑示例中,UniWorld-V2能够渲染出复杂的中文艺术字体,如 “月满中秋”,确保效果清晰且语义准确。
该模型的精细化控制力同样令人瞩目。通过简单的框选操作,用户可以指定编辑区域,实现高难度的调整,比如将特定物体移出框外。此外,UniWorld-V2还能在光影处理方面展现出色的能力,能够自然地将物体融入场景,提升整体的和谐感。
在测试基准 GEdit-Bench 和 ImgEdit 中,UniWorld-V2分别以7.83和4.49的高分遥遥领先其他知名模型,如 OpenAI 的 GPT-Image-1和 Gemini2.0。这些成绩的背后,得益于 UniWorld-R1框架的强大通用性,它不仅提升了 UniWorld-V2的性能,也为其他模型带来了显著改进。
UniWorld-R1的论文、代码和模型已在 GitHub 和 Hugging Face 平台上公开,为未来的研究打下基础。这一技术的发布,不仅推动了多模态领域的发展,也为图像编辑技术带来了新的可能性。
论文地址:
https://arxiv.org/abs/2510.16888
GitHub链接:
https://github.com/PKU-YuanGroup/UniWorld
via AI新闻资讯 (author: AI Base)
在图像编辑领域,一项颠覆性的技术正在改变游戏规则!兔展智能与北京大学的 UniWorld 团队推出了新一代图像编辑模型 ——UniWorld-V2。这一模型不仅在图像处理的细节控制上超越了 Nano Banana,更在理解中文指令方面表现出色。
UniWorld-V2基于一种创新的视觉强化学习框架 ——UniWorld-R1,该框架首次将强化学习策略优化应用于图像编辑,显著提升了编辑的准确性和灵活性。与传统的监督微调方法相比,UniWorld-R1的设计旨在解决数据过拟合和泛化能力差的问题,让模型在面临多样化编辑指令时能够更好地响应。
举个例子,当用户要求 AI 将一位女生的手势改为 “OK” 时,UniWorld-V2能够精准理解并修改。与之相比,Nano Banana 则未能准确捕捉用户的意图。更令人惊叹的是,在海报编辑示例中,UniWorld-V2能够渲染出复杂的中文艺术字体,如 “月满中秋”,确保效果清晰且语义准确。
该模型的精细化控制力同样令人瞩目。通过简单的框选操作,用户可以指定编辑区域,实现高难度的调整,比如将特定物体移出框外。此外,UniWorld-V2还能在光影处理方面展现出色的能力,能够自然地将物体融入场景,提升整体的和谐感。
在测试基准 GEdit-Bench 和 ImgEdit 中,UniWorld-V2分别以7.83和4.49的高分遥遥领先其他知名模型,如 OpenAI 的 GPT-Image-1和 Gemini2.0。这些成绩的背后,得益于 UniWorld-R1框架的强大通用性,它不仅提升了 UniWorld-V2的性能,也为其他模型带来了显著改进。
UniWorld-R1的论文、代码和模型已在 GitHub 和 Hugging Face 平台上公开,为未来的研究打下基础。这一技术的发布,不仅推动了多模态领域的发展,也为图像编辑技术带来了新的可能性。
论文地址:
https://arxiv.org/abs/2510.16888
GitHub链接:
https://github.com/PKU-YuanGroup/UniWorld
via AI新闻资讯 (author: AI Base)