HumanDiT：一款由浙大联合字节推出的姿态引导的高保真人体视频生成框架

HumanDiT 是由浙江大学和字节跳动联合提出的一种姿态引导的高保真人体视频生成框架。它基于扩散变换器（Diffusion Transformer，DiT），能够在大规模数据集上进行训练，生成具有精细身体渲染的长序列人体运动视频。

1、姿态引导的视频生成：HumanDiT 通过关键点扩散变换器（Keypoint-DiT）生成后续姿态序列，确保视频中人体动作的连贯性和自然性。

2、长序列视频生成：支持多种视频分辨率和可变序列长度，适合生成长序列的高质量视频。

3、个性化特征保持：引入前缀潜在参考策略，在长序列中保持个性化特征。

4、灵活的输入与输出：能从静态图像或现有视频中继续生成视频，适用于多种应用场景。

5、姿态适配与细化：基于姿态适配器实现给定序列的姿态转移，通过姿态细化模块增强面部和手部特征与参考图像的对齐效果。