然而,在图像生成(Image Generation)领域,例如文生图(Text-to-Image)与文生视频(Text-to-Video),我们是否也可以借鉴 CoT 相关的策略,来提升图片或 ...
近日,微软和剑桥大学公布推理新方法:多模态思维可视化MVoT。新方法可以边推理,边「想象」,同时利用文本和图像信息学习,在实验中比CoT拥有更好的可解释性和稳健性,复杂情况下甚至比CoT强20%。还可以与CoT组合,进一步提升模型性能。