既然图像生成过程同样也类似于LLM中的CoT:模型通过中间的去噪 ... 微调中是输入的文本提词和初始噪声;y代表决策动作,也即模型采样的扩散时间 ...