亚洲成人色区,亚洲综合一区国产精品,午夜电影,国产精品沙发午睡系列990531,国内露脸互换人妻

The following article is from 機器之心SOTA模型 Author 機器之心SOTA模型

機器之心專欄

(相關資料圖)

本專欄將逐一盤點自然語言處理、計算機視覺等領域下的常見任務，并對在這些任務上取得過 SOTA 的經典模型逐一詳解。前往 SOTA！模型資源站（sota.jiqizhixin.com）即可獲取本文中包含的模型實現代碼、預訓練模型及 API 等資源。

本文將分 2 期進行連載，共介紹15個在視頻生成任務上曾取得 SOTA 的經典模型。

第 1 期：TGAN、VGAN、MoCoGAN、SVG、vid2vid、VideoVAE、DVD-GAN、SWGAN

第 2 期：TGANv2、TGANv2-ODE、VideoGPT、DVG、NWA、StyleGAN-V、Video Diffusion Models

您正在閱讀的是其中的第 1 期。前往 SOTA！模型資源站（sota.jiqizhixin.com）即可獲取本文中包含的模型實現代碼、預訓練模型及 API 等資源。

第1期回顧：

本期收錄模型速覽

模型	SOTA！模型資源站收錄情況	模型來源論文
TGANv2	https://sota.jiqizhixin.com/project/tganv2-2021收錄實現數量：2支持框架：PyTorch	Train Sparsely, Generate Densely: Memory-efficient Unsupervised Training of High-resolution Temporal GAN
TGANv2-ODE	https://sota.jiqizhixin.com/project/tganv2-ode收錄實現數量：1支持框架：PyTorch	Latent Neural Differential Equations for Video Generation
VideoGPT	https://sota.jiqizhixin.com/project/videogpt收錄實現數量：1支持框架：PyTorch	VideoGPT: Video Generation using VQ-VAE and Transformers
DVG	https://sota.jiqizhixin.com/project/dvg收錄實現數量：1支持框架：PyTorch	Diverse Video Generation using a Gaussian Process Trigger
NWA	https://sota.jiqizhixin.com/project/nuwa收錄實現數量：1支持框架：PyTorch	NWA: Visual Synthesis Pre-training for Neural visUal World creAtion
StyleGAN-V	https://sota.jiqizhixin.com/project/stylegan-v收錄實現數量：1支持框架：PyTorch	StyleGAN-V: A Continuous Video Generator with the Price, Image Quality and Perks of StyleGAN2
Video Diffusion Models	https://sota.jiqizhixin.com/project/video-diffusion-models收錄實現數量：2支持框架：PyTorch	Video Diffusion Models

什么是生成？就是模型通過學習一些數據生成類似的數據。讓機器看一些動物圖片，然后自己來產生動物的圖片，這就是圖像生成的，即最終生成的目標物是圖像。視頻生成與基于數據生成數據（圖像）的任務不同，重點聚焦于了解物體運動和場景動態。因此，視頻生成（video generation）任務也被定位于future prediction任務。不過，創建一個動態模型是非常具有挑戰性的，因為物體和場景有大量的變化方式。

深度生成模型最近受到了越來越多的關注，這不僅是因為它們提供了一種以無監督方式學習深度特征表征的方法，可以潛在地利用所有未標記的數據進行訓練，還因為它們可以用來生成各種視覺應用所需的新型圖像。然而，從生成圖像到生成視頻的擴展被證明是一項極具挑戰性的任務，盡管生成的數據只是多了一個維度—時間維度。

首先，由于視頻是對物體進行各種動作的視覺信息的時空記錄，生成模型除了學習物體的外觀模型外，還需要學習物體的合理物理運動模型。如果學習到的物體運動模型不正確，生成的視頻可能包含物體進行物理上不可能的運動。

第二，時間維度帶來了大量的變化。考慮到一個人在做下蹲動作時可以有多種速度變化，每種速度模式都會產生不同的視頻，盡管視頻中人的外表是一樣的。

第三，由于人類已經進化的對運動非常敏感，運動偽影特別容易察覺。

與在圖像生成任務中的應用類似，GAN仍然是視頻生成中最有效的模型。本文介紹視頻生成必備的TOP模型，主要按照各個模型提出的時間順序來介紹，以近兩年的SOTA模型為主。

TGANv2

在視頻數據集上訓練生成對抗網絡（GAN）面臨的一個挑戰就是：視頻數據集的規模太大，而且每個觀測值都很復雜。一般來說，訓練GAN的計算成本隨著分辨率的提高而呈指數級增長。在這項研究中，提出了一種新型的高分辨率視頻數據集無監督學習的內存效率方法，其計算成本僅與分辨率呈線性比例變化：具體的，通過將生成器模型設計成小型子生成器的堆疊，如圖1所示，并以特定的方式訓練模型來實現這一目標。訓練時，在每一對連續的子生成器之間引入一個輔助子采樣層，將幀率按一定比例降低。這個處理過程可以讓每個子生成器學習不同分辨率下的視頻分布情況，由此只需要幾個GPU來訓練一個高度復雜的生成器，該生成器在起始得分方面遠遠超過了前者。

圖1. 使用多個子采樣層的生成器

經典temporal GAN（即TGAN和MoCoGAN）使用一個由兩個子網絡組成的生成器：時態生成器g0和圖像生成器g1。對于T-幀視頻的生成，時態生成器生成一個大小為T的潛在向量集（或潛在空間中的T-幀視頻）{z1, . . zT }，圖像生成器將潛在向量視頻和噪聲向量轉換為圖像視頻，如圖2所示。

圖2. 經典temporal GAN中使用的時態生成器和圖像生成器之間的關系概述。為了生成一組T個潛在向量，時間生成器通常是一個遞歸網絡

首先描述單次采樣層的GAN的訓練。假設一個生成器從噪聲向量z輸出視頻x，由兩個塊組成：抽象塊g^A和渲染塊g^R。在推理過程中，該生成器的樣本生成過程等同于傳統GAN中的生成器，即，G(z)可以表示為

在訓練階段，將G修改為G’，在g^R和g^A之間引入一個子采樣層S^G，以降低從g^A產生的abstract map的幀率。訓練階段的目標函數變為

給定L個子生成器，或L個抽象塊組成的模型。在訓練的時候，這個架構是用L個相應的渲染塊和L-1個子采樣層來訓練的。推理階段，可以簡單地通過連續應用抽象塊來評估x：

在訓練時，使用L組子生成器，每個子生成器都遞歸地將(g_m)^A和(S_m)^G（m = 1, ... , l - 1）應用于abstract map，并通過(g_l)^R將最終抽象塊(g_l)^A的輸出轉換為視頻。

為了訓練上述由多個子生成器組成的生成器，需要一個鑒別器為它們生成的視頻集評估一個分數。鑒別器由多個子鑒別器組成。D’_l表征第l個子鑒別器，從第l個子生成器G’_l中獲取樣本x’_l并返回一個標量值。鑒別器D’利用以下公式對一組x’_l進行評分

該方法的本質是 the division of roles：不是給單一的大規模模型提供密集的原始數據集，而是用數據集的選定部分來訓練每個子生成器，以幫助子生成器提高模擬給定role的能力。具有low indices的子生成器的作用是在抽象層面上模仿原始視頻數據集；也就是說，生成一個隨時間自然流動的低分辨率視頻。具有low indices的鑒別器負責評估低分辨率的高幀率視頻的質量。這使得low indices的生成器能夠捕捉視頻中獨立于高分辨率細節的整體運動。另一方面，具有high indices的子生成器的作用是模仿原始視頻數據集的視覺質量。也就是說，只需要一個高分辨率的低幀率視頻來訓練。

論文具體介紹了一個由四個子生成器組成的生成器，它可以合成一個具有T幀和W×H像素的視頻。與TGAN和MoCoGAN一樣，該生成器首先從噪聲向量中產生T個潛在特征圖，然后將每個特征圖轉換為相應的幀（見圖2）。具體的網絡結構見圖3和圖4。

圖3. 模型的網絡配置。"CLSTM(C) "代表具有C通道和3×3內核的卷積LSTM。"Up(C) "指的是上采樣塊，它返回具有C個通道和兩倍于輸入分辨率的特征圖

圖4. 論文中使用的塊細節。"Conv(C, k) "表示具有C通道和(k×k)內核的二維卷積層。"Conv3D(C, k) "表示具有C通道和(k×k×k)核的三維卷積層。"UnPool "表示一個具有(2×2)核和stride為2的二維 unpooling layer 。"AvgPool2D "表示沿空間維度的二維平均池化層，核為（2×2），stride為2。請注意，它并不沿時間維度進行池化操作。"DownSample "表示下采樣操作。如果輸入的三維特征圖的每個維度的大小都大于1，該操作符就會沿著其軸線進行平均池化操作（如果在進行平均池化操作時大小為奇數，則目標軸的padding被設置為1）。否則，不對該軸進行 average pooling 。Up(C) "中的(-)表示，如果輸入通道的數量與輸出通道的數量相等，則不插入括號內的塊

當前 SOTA！平臺收錄TGANv2共 2個模型實現資源。

項目SOTA！平臺項目詳情頁TGANv2前往SOTA！模型平臺獲取實現資源：https://sota.jiizhixin.com/project/tganv2-2021

TGANv2-ODE

TGANv2-ODE研究了神經微分方程（ Neural Differential Equations ）對視頻生成的時間動態建模的影響。神經微分方程的范式具有許多理論上的優勢，包括在視頻生成過程中首次對時間進行連續表示。為了解決神經微分方程的影響，作者在這項工作中研究了時間模型的變化如何影響生成的視頻質量，最終支持使用神經微分方程作為經典的temporal生成器的簡單替代。

TGAN用一個temporal generator G_t將一個單一的噪聲向量轉化為多個考慮到時間的向量，這是一系列的一維卷積。然后，將生成的向量與開始的單一噪聲向量連接起來，送入圖像生成器G_i中。G如圖5所示：

圖5. G_t將潛在變量z_c轉換為一系列的temporal vectors z0, z1, ..., zT。每個z_t與z_c串聯并轉化為一個圖像。上述圖像被連接起來組成一個視頻

目前，討論temporal generator的選擇的文章非常少，文本提出在一般物理學常見的范式下對其進行探索：使用微分方程來表示temporal dynamics。在使用歷史圖像生成函數的同時，將觀察不同temporal生成函數的性能指標的變化。生成函數系列之間的比較可以通過圖6直觀地看到。

圖6. 與典型的LSTM相比，神經微分方程的觀察次數更多，SDE（ Stochastic Differential Equations ）的解決潛力更大

可以用微分方程( Ordinary Differential Equations , ODEs)代替自動回歸的LSTM或1D核來模擬潛在變量z_t的演變。通過學習函數f(z_t)，可以通過積分找到未來的z_T:

然后圖像生成器G_i(z)可以從z_t產生一個圖像。使用微分方程，該模型可以解釋traversing潛在空間的細微差別，并說明z_(t

ODE允許在確定的系統中進行路徑近似。每個z_t都會產生一個z_t+1，但這并不反映視頻的真正功能。SDEs可能是表征視頻中存在的隨機性的一個好方法，它提供了ODEs的所有好處，同時允許隨機性與它們的附加噪聲。令μ(z_t)和σ(z_t)分別代表漂移和擴散，我們發現z_T有：

(z_t)和σ(z_t)中的每一個都是由一個神經網絡設定的參數。W_t是一個 Wiener 過程，是一個具有高斯增量的連續數值系列。這種表述的有效性可以通過思考一個人臉表情變化的視頻來體現出來。如果演員一開始是中性臉，他們之后可能會產生一個悲傷的臉。然而，微笑也是同樣可能的。通過注入隨機性，任何一條路徑都可能被模型探索到。

微分方程由于其連續的特性，可以增加對路徑traversed方式的控制。因為z_t是通過積分找到的，所以具有兩個其他方式所不具備的獨特特征：首先，z_t可以在時間上向后整合，允許發現z_t-n，即在第一幀之前發生的事情。第二，可以很容易實現幀率提高。微分方程求解器可以對z_(t

當前 SOTA！平臺收錄TGANv2-ODE共1個模型實現資源。

項目SOTA！平臺項目詳情頁TGANv2-ODE前往SOTA！模型平臺獲取實現資源：https://sota.jiqizhixin.com/project/tganv2-ode

Video-GPT

VideoGPT是一種概念簡單的架構，用于擴展基于似然的生成對自然視頻進行建模。Video-GPT將通常用于圖像生成的VQ-VAE和Transformer模型以最小的修改改編到視頻生成領域。VideoGPT使用VQVAE，VQVAE通過采用3D卷積和軸向自注意力學習降采樣的原始視頻離散潛在表示。然后使用簡單的類似GPT的架構進行自回歸，使用時空建模離散潛在位置編碼。VideoGPT結構如圖7：

圖7. 把訓練管道分成兩個連續的階段：訓練VQ-VAE（左）和訓練潛在空間的自回歸變換器（右）。第一階段類似于原始的VQ-VAE訓練程序。在第二階段，VQ-VAE將視頻數據編碼為潛在序列作為先驗模型的訓練數據。對于推理階段，首先從先驗中抽取一個潛在序列，然后用VQ-VAE將潛在序列解碼為視頻樣本

Learning Latent Codes

為了學習一組離散的潛在編碼，首先在視頻數據上訓練一個VQ-VAE。編碼器結構由一系列三維卷積組成，這些卷積在空間-時間上進行下采樣，然后是注意力殘差塊。每個注意力殘差塊的設計如圖8所示，使用LayerNorm和軸向注意力層。解碼器的結構與編碼器相反，注意力殘差塊之后是一系列的三維轉置卷積，在空間-時間上進行上采樣。位置編碼是學習到的時空嵌入，在編碼器和解碼器的所有軸向注意力層之間共享。

圖8. VQVAE中注意力殘差塊的結構

Learning a Prior

第二階段是對第一階段的VQ-VAE潛在編碼進行先驗學習。遵循Image-GPT的先驗網絡結構，只是在前饋層和注意力塊層之后增加了dropout層，用于正則化。盡管VQ-VAE是無條件訓練的，但可以通過訓練一個條件先驗來生成條件樣本。可以使用兩種類型的條件。

交叉注意力（Cross Attention）。對于video frame conditioning，首先將調整后的幀送入一個3D ResNet，然后在之前的網絡訓練中對ResNet的輸出表示進行交叉注意力。

條件性范數（Conditional Norms）。與GANs中使用的調整方法類似，將transformer層歸一化層中的增益和偏置參數化為條件向量的仿射函數。這種方法可以用于行動和類別調整模型。

當前 SOTA！平臺收錄 VideoGPT 共 1 個模型實現資源。

項目SOTA！平臺項目詳情頁VideoGPT前往SOTA！模型平臺獲取實現資源：https://sota.jiqizhixin.com/project/videogpt

DVG

在給定幾個背景（或過去）幀的情況下，生成未來幀是一項具有挑戰性的任務。它需要從潛在的未來狀態的多樣性方面對視頻的時間一致性和多模態進行建模。目前用于視頻生成的變量方法傾向于將多模態的未來結果邊緣化。而多樣化視頻生成器（Diverse Video Generator，DVG）則是對未來結果中的多模態進行明確建模，并利用它對不同的未來進行采樣，DVG使用高斯過程（Gaussian Process，GP）來學習關于過去的未來狀態的先驗，并保持一個關于特定樣本的可能未來的概率分布。此外，利用這個分布的超時變化，通過估計正在進行的序列的結束來控制不同未來狀態的采樣。即，利用GP在輸出函數空間上的方差來觸發行動序列的變化。

使用高斯過程對未來狀態的多樣性進行建模，是由于高斯過程具有幾個理想的特性：它們在貝葉斯公式中學習了關于給定過去背景的潛在未來的先驗。這使得我們能夠在提供更多的背景框架作為證據時更新可能的未來分布，并保持一個潛在的未來列表（GP的基礎函數）。DVG給出了一個非常有趣的formulation：估計何時生成一個不同的輸出與繼續一個正在進行的行動，以及控制預測的未來的方法。

DVG利用GP在任何特定時間步長的方差作為行動序列是否正在進行或結束的指標，具體如圖9，當觀察到一幀（例如在時間t）可能有幾種可能的未來時，GP模型的方差很高（圖9（左））。不同的函數表征可以生成的潛在行動序列，從這個特定的框架開始。一旦選擇了下一幀（t+2），未來狀態的GP方差相對較低（圖9（中）），表明一個行動序列正在進行中，模型應該繼續它，而不是試圖對一個不同的樣本進行采樣。在正在進行的序列完成后，對潛在的未來狀態的GP方差又變得很高。這意味著我們可以繼續這一行動。以上過程簡要說明了我們如何使用GP來決定何時觸發不同的行動。圖9（右）顯示了一個使用GP觸發器的例子，每隔幾幀就觸發一個不同的動作。

圖19. 使用GP差異來控制正在進行的行動與新行動的抽樣說明

給定一組觀察到的幀，目標是生成一組多樣化的未來幀。DVG模型有三個模塊：（a）一個幀自動編碼器（或編碼器生成器），（b）一個LSTM時間動態編碼器，（c）一個GP時間動態編碼器，用于對各種潛在的未來狀態進行先驗和概率建模。幀編碼器將幀映射到一個潛在的空間，隨后被時間動力學編碼器和幀發生器利用來合成未來幀。對于推理階段，使用所有三個模塊一起生成未來幀，并使用GP作為觸發器來切換到不同的未來狀態。

所有三個模塊，幀自動編碼器、LSTM及GP時間編碼器，是使用以下目標函數聯合訓練的：

在推理過程中，將上述的三個模塊組合在一起，將幀編碼器的輸出z_t輸入給LSTM和GP編碼器。LSTM輸出zt+1，GP輸出一個平均值和方差。GP的方差可以用來決定我們是否要繼續一個正在進行的動作或產生新的多樣化的輸出，這個過程稱之為觸發開關。如果決定繼續進行正在進行的動作，將LSTM的輸出zt+1提供給解碼器以生成下一幀；如果決定切換，就從GP中取樣zt+1并將其作為輸入提供給解碼器。這個過程如圖10所示（stage 3）。將生成的未來幀用作編碼器的輸入，以輸出下一個z_(t+1)；這個過程重復進行，直到得到我們想要的生成幀。

圖10. DVG模型架構

當前 SOTA！平臺收錄DVG共 1個模型實現資源。

項目SOTA！平臺項目詳情頁DVG前往SOTA！模型平臺獲取實現資源：https://sota.jiqizhixin.com/project/dvg

NWA

NWA不是一個單純的視頻生成模型，而是一個多模態預訓練模型。為了同時覆蓋語言、圖像和視頻的不同場景，NWA是一個三維變換器編碼器-解碼器框架，它不僅可以處理作為三維數據的視頻，還可以分別用于處理維和二維數據的文本和圖像。

為了涵蓋所有的文本、圖像和視頻或其草圖，將它們全部視為token，并定義了一個統一的三維符號X∈R_h×w×s×d，其中，h和w表示空間軸上的token數量（分別為高度和寬度），s表示時間軸上的token數量，d是每個token的尺寸。文本自然是離散的，繼Transformer之后，使用小寫的 byte pair encoding 字節對編碼（BPE）將其標記化并嵌入到R_1×1×s×d。由于文本沒有空間維度，使用占位符1。圖像是自然的連續像素。輸入一個高度為H、寬度為W、通道為C的原始圖像I∈R_H×W×C，VQ-VAE訓練一個可學習的 codebook ，在原始連續像素和離散token之間建立一個橋梁。

其中，E為編碼器。搜索到的結果z∈{0, 1, . . . , N - 1}_h×w被B嵌入，并由解碼器G重構回I。VQ-VAE的訓練損失函數為

VQ-GAN增強了VQ-VAE的訓練，增加了感知損失和GAN損失，以減輕I和I之間的精確約束，并專注于高層次的語義匹配。

VQ-VAE訓練后，B[z]為最終得到的圖像表征。

對于視頻，使用二維VQ-GAN對視頻的每一幀進行編碼，也可以產生時間上的一致性視頻，并同時受益于圖像和視頻數據。由此生成的表征表示為R_h×w×s×d，其中，s表示幀的數量。

圖11. NUWA的結構概述。它包含一個支持不同條件的自適應編碼器和一個受益于圖像和視頻數據的預訓練的解碼器。對于圖像補全、視頻預測、圖像操作和視頻操作任務，輸入的部分圖像或視頻被直接送入解碼器

進一步，引入一個3D近距離關注（3DNA）機制，以考慮空間和時間軸的定位特性。3DNA不僅降低了計算的復雜性，而且還提高了生成結果的視覺質量。基于3DNA機制，引入一個3D encoder-decorder架構。為了在C的條件下生成一個目標Y，Y和C的位置編碼由三個不同的可學習詞匯更新，考慮到高度、寬度和時間軸：

然后，將條件送入一個由L個3DNA層堆疊而成的編碼器，以模擬自注意力的相互作用，其中第l層為：

同樣，解碼器也是一個由L個3DNA層組成的堆棧。解碼器同時計算生成結果的自注意力和生成結果與條件之間的交叉注意力：

在三個任務上訓練模型時（文本到圖像（ Text-to-Image，T2I）、視頻預測（ Video Prediction ，V2V）和文本到視頻（ Text-t，o-Video T2V）），訓練目標為交叉熵函數，分別表示為三個部分：

當前 SOTA！平臺收錄NWA 共 1個模型實現資源。

項目SOTA！平臺項目詳情頁NWA前往SOTA！模型平臺獲取實現資源：https://sota.jiqizhixin.com/project/nuwa

StyleGAN-v

常用于視頻生成的Conv3D層有很多限制，比如計算成本相當高。規避對3D卷積的需求的一個方法是將視頻作為一個具有時間坐標的連續信號。為了使這種方法奏效，必須解決幾個問題：首先，現有的基于正弦/余弦的位置編碼是循環的，不依賴于輸入，這對視頻是不利的，因為我們希望不同的視頻在幀之間有不同的運動，而且視頻不應該循環。其次，對完整視頻的訓練在計算上是很昂貴的，因此生成器必須能夠從每個片段只有幾幀的稀疏輸入中學習。最后，鑒別器需要處理以不同時間距離采樣的幀，以應對稀疏的輸入問題。總之，StyleGAN-V不是自回歸的，不使用Conv3D，而是在稀疏的輸入上進行訓練，并且對圖像和視頻使用單一的鑒別器而不是兩個單獨的鑒別器。

StyleGAN-v是在StyleGAN2的基礎上建立的模型，并為視頻合成重新設計其生成器和鑒別器網絡，只做了最小的修改。在StyleGAN2的生成器上所做的唯一修改是將連續運動編碼v_t與它的恒定輸入張量連接起來。將這些特征按通道串聯成一個全局視頻描述符h，并據此預測真/假。以幀之間的時間距離δxi = ti+1 - ti作為D的條件，以使它更容易在不同的幀率上操作。

1）生成器結構。

生成器由三個子模塊組成：內容映射網絡Fc、運動映射網絡Fm、Synthesis網絡 S。Fc和S從StyleGAN2中照搬，只對S進行了修改，將運動編碼v_t拼接到它的恒定輸入張量上。通過對一些內容的噪聲進行采樣并通過映射網絡得到視頻的風格代碼，從而生成一個樣本視頻。然后，對于每個時間段取樣一個噪聲向量序列，該序列對應于足夠長的等距時間段以覆蓋目標時間段，通過兩個無填充的Conv1D層，并從輸出序列中對應于目標時間段左右兩個隨機時間段的兩個向量中計算出非循環位置編碼。由此產生的運動編碼被插入到生成器中。

圖12. 生成器架構：在StyleGAN2生成器的合成網絡S之上所做的唯一修改是將運動編碼與常量輸入張量相連接。S使用內容編碼w和運動編碼v_t生成幀x_t

2）非周期性的位置編碼。

StyleGAN-V的位置編碼基本上是一個轉換的正弦函數，具有可學習的波幅、周期、相位，首先預測來自目標時間段左側的 "原始 "運動編碼。然而，這本身就導致了不相干的運動編碼，這就是為什么他們通過減去左右編碼之間的線性插值來縫合，以便在每個離散的時間步長（0，1，2，...）將嵌入歸零。這在一定程度上限制了位置編碼的表現力，所以為了彌補這一點，將左右運動矢量之間的線性插值乘以一個可學習矩陣再加回去。它對向量進行歸一化處理，然后用一個學習到的參數對其進行歸一化處理。

3) 鑒別器結構。

鑒別器獨立地從每一幀中提取特征，將結果連接起來，并從該張量中預測出一個單一的真/假邏輯。為了能夠處理稀疏的輸入，鑒別器以幀之間的時間距離為條件。這些距離通過位置編碼進行預處理，然后通過MLP進行處理，并串聯成一個單一的向量，用于調節每個鑒別器塊第一層的權重，以及最后一層的投影條件（點乘）。

圖13. 每段視頻k=3幀的鑒別器結構。在StyleGAN2鑒別器的基礎上所做的唯一變化是在16個分辨率下串聯激活通道，并在幀間時間距離的位置嵌入上調節模型

4) 稀疏訓練的隱含假設。

在一個視頻中，幀的變化不大（人臉、延時攝影等）。因此，僅僅幾幀就包含了足夠的信息來了解整個視頻的情況。例如，如果你看過兩幀，你就已經看到了它們的全部。

當前 SOTA！平臺收錄 StyleGAN-v共1個模型實現資源。

模型SOTA！平臺模型詳情頁StyleGAN-v前往SOTA！模型平臺獲取實現資源：https://sota.jiqizhixin.com/project/stylegan-v

Video Diffusion Models

生成時間上連貫的高保真視頻是生成式模型研究的一個重要里程碑。Video Diffusion Models 是一個用于視頻生成的擴散模型，它是標準圖像擴散架構的自然擴展，能夠從圖像和視頻數據中進行聯合訓練，從而減少mini-batch梯度的方差并加快優化速度。為了生成長的和更高分辨率的視頻，Video Diffusion Models中引入了一種新的條件采樣技術，用于空間和時間上的視頻擴展，比以前提出的方法表現得更好。

在圖像生成TOP模型的文章中，我們介紹過Unet，這是一個神經網絡架構，構建為一個空間下采樣通道，然后是一個空間上采樣通道，與下采樣通道的激活有 skip connections 。該網絡是由二維卷積塊層構建的。Video Diffusion Models將這種圖像擴散模型架構擴展到視頻數據，由固定數量的幀塊給出，使用一種特殊類型的3D U-Net，在空間和時間上進行因子化。首先，修改了圖像模型結構，將每個二維卷積改變為純空間的三維卷積，例如，將每個3x3卷積改變為1x3x3卷積（第一個索引視頻幀，第二個和第三個索引空間高度和寬度）。每個空間注意力塊中的注意力仍然是對空間的注意力。也就是說，第一軸被當作一個batch axis。其次，在每個空間注意力塊之后，插入一個時間注意力塊，對第一個軸進行注意力，并將空間軸視為批處理軸。在每個時間注意力塊中使用相對位置嵌入，以便網絡能夠以不需要視頻時間的絕對概念的方式區分幀的排序。圖24中可視化了模型的結構。

圖24. 擴散模型中xθ的三維U-Net結構。每個區塊代表一個4D張量，其軸標記為幀×高×寬×通道，以時空因子的方式處理。輸入為噪聲視頻z_t、調節c和log SNR λ_t。下采樣/上采樣塊通過每個K塊調整空間輸入分辨率的高度×寬度，系數為2。通道數用通道乘法器M1、M2、...、MK指定，上采樣通道與下采樣通道有skip connections連接

當前 SOTA！平臺收錄 Video Diffusion Models 共2個模型實現資源。

項目SOTA！平臺項目詳情頁Video Diffusion Models前往SOTA！模型平臺獲取實現資源：https://sota.jiqizhixin.com/project/video-diffusion-models前往 SOTA！模型資源站（sota.jiqizhixin.com）即可獲取本文中包含的模型實現代碼、預訓練模型及API等資源。

網頁端訪問：在瀏覽器地址欄輸入新版站點地址sota.jiqizhixin.com，即可前往「SOTA！模型」平臺，查看關注的模型是否有新資源收錄。

移動端訪問：在微信移動端中搜索服務號名稱「機器之心SOTA模型」或 ID「sotaai」，關注 SOTA！模型服務號，即可通過服務號底部菜單欄使用平臺功能，更有最新AI技術、開發資源及社區動態定期推送。

關鍵詞：微分方程正在進行機器之心