声音模型:使用32个Mel-frequency cepstral coefficients (MFCCs)作为输入特征,使用双向LSTM网络结构,隐藏层大小为512,并使用残差连接。训练共进行10个epoch,学习率初始值为0.001,每5个epoch衰减0.1。
嘴型模型:输入图像大小为96x96,使用U-Net网络结构,其中contracting路径的卷积层数量为2,expanding路径的卷积层数量为3。训练共进行10个epoch,学习率初始值为0.001,每5个epoch衰减0.1。
脸型模型:输入图像大小为96x96,使用Hourglass网络结构,其中stack的层数为4,block的层数为2。训练共进行15个epoch,学习率初始值为0.0001,每5个epoch衰减0.1。
总的来说,A800 80G显卡在训练声音、嘴型和脸型模型时的速度均优于GeForce RTX 3090显卡,加速效果分别达到了85.7%、79.2%和88.8%。直播数字人的训练涉及到大量的图形渲染和计算,A800 80G显卡具有强大的图形处理能力,可以更好地支持直播数字人的训练需求。在训练过程中,显卡可以更快地处理和渲染数字人的图像,使得训练过程更加流畅和快速。此外,显卡的显存容量也关系到训练的稳定性和速度,A800 80G显卡的显存容量较大,可以更好地满足直播数字人训练的需求。