• <samp id="kc0km"></samp>
    <ul id="kc0km"></ul>
    <strike id="kc0km"></strike>
    <strike id="kc0km"></strike>
  • <kbd id="kc0km"><acronym id="kc0km"></acronym></kbd>
    <code id="kc0km"></code>
    <noframes id="kc0km"></noframes>
  • Sora炸裂出道!背后技術團隊曝光,有多位華人,還有2022年畢業的本科生!

    2024-02-19 16:50:38

    2月16日,OpenAI的AI視頻模型Sora炸裂出道,生成的視頻無論是清晰度、連貫性和時間上都令人驚艷,一時間,諸如“現實不存在了!”的評論在全網刷屏。

    Sora是如何實現如此顛覆性的能力的呢?這就不得不提到其背后的兩項核心技術突破——Spacetime Patch(時空Patch)技術和Diffusion Transformer(DiT,或擴散型Transformer)架構。

    CFF20LXzkOysDGVYFzFMDpeTpmUTD7Dribug0wfpRFvmBZoBGjOAzS76f0X0HGVzhpnvvGIkBFAuAtKPBoyI3og.png

    查詢這兩項技術的原作論文,時空Patch的技術論文實際上是由谷歌DeepMind的科學家們于2023年7月發表的。DiT架構技術論文的一作則是Sora團隊領導者之一William Peebles,但戲劇性的是,這篇論文曾在2023年的計算機視覺會議上因“缺少創新性”而遭到拒絕,僅僅1年之后,就成為Sora的核心理論之一。

    如今,Sora團隊毫無疑問已經成為世界上最受關注的技術團隊。OpenAI官網顯示,Sora團隊由Peebles等3人領導,核心成員包括12人,其中有多位華人。值得注意的是,這支團隊十分年輕,成立時間還尚未超過1年。

    CFF20LXzkOysDGVYFzFMDpeTpmUTD7DraVPGyU3XLOlrmlgZjia9icbS18kkpjk8PWefaepPvNNZsCdV9do7TLTw.png

    核心突破一:

    時空Patch,站在谷歌肩膀上

    此前,OpenAI在X平臺上展示了Sora將靜態圖像轉換為動態視頻的幾個案例,其逼真程度令人驚嘆。Sora是如何做到這一點的呢?這就不得不提到該AI視頻模型背后的兩項核心技術——DiT架構和Spacetime Patch(時空Patch)。

    據外媒報道,Spacetime Patch是Sora創新的核心之一,該項技術是建立在谷歌DeepMind對NaViT(原生分辨率視覺Transformer)和ViT(視覺Transformer)的早期研究基礎上。

    Patch可以理解為Sora的基本單元,就像GPT-4的基本單元是Token。Token是文字的片段,Patch則是視頻的片段。GPT-4被訓練以處理一串Token,并預測出下一個Token。Sora遵循相同的邏輯,可以處理一系列的Patch,并預測出序列中的下一個Patch。

    Sora之所以能實現突破,在于其通過Spacetime Patch將視頻視為補丁序列,Sora保持了原始的寬高比和分辨率,類似于NaViT對圖像的處理。這對于捕捉視覺數據的真正本質至關重要,使模型能夠從更準確的表達中學習,從而賦予Sora近乎完美的準確性。由此,Sora能夠有效地處理各種視覺數據,而無需調整大小或填充等預處理步驟。

    OpenAI發布的Sora技術報告中透露了Sora的主要理論基礎,其中Patch的技術論文名為Patch n' Pack: NaViT, a Vision Transformer for any Aspect Ratio and Resolution。該篇研究論文是由谷歌DeepMind的科學家們于2023年7月發表的。

    CFF20LXzkOysDGVYFzFMDpeTpmUTD7Drcldbib2P7dFobXoZ3l8OQmvwk93ysIaHEbRb7mCSH9nU2iaWltXZVNCQ.jpg

    CFF20LXzkOysDGVYFzFMDpeTpmUTD7DrvYzYlfBAShUIL5B8Fib23GlZctRrF4w3bCP6oCcw1V6XhXAEy18CtNg.jpg

    核心突破二:

    擴散型Transformer架構

    相關論文曾遭拒絕

    除此之外,Sora的另一個重大突破是其所使用的架構,傳統的文本到視頻模型(Runway、Stable Diffusion)通常是擴散模型(Diffusion Model),文本模型例如GPT-4則是Transformer模型,而Sora則采用了DiT架構,融合了前述兩者的特性。

    據報道,傳統的擴散模型的訓練過程是通過多個步驟逐漸向圖片增加噪點,直到圖片變成完全無結構的噪點圖片,然后在生成圖片時,逐步減少噪點,直到還原出一張清晰的圖片。Sora采用的架構是通過Transformer的編碼器-解碼器架構處理包含噪點的輸入圖像,并在每一步預測出更清晰的圖像。DiT架構結合時空Patch,讓Sora能夠在更多的數據上進行訓練,輸出質量也得到大幅提高。

    OpenAI發布的Sora技術報告透露,Sora采用的DiT架構是基于一篇名為Scalable diffusion models with transformers的學術論文。預印本網站arxiv顯示,該篇原作論文是2022年12月由伯克利大學研究人員William (Bill) Peebles和紐約大學的一位研究人員謝賽寧共同發表。William (Bill) Peebles之后加入了OpenAI,領導Sora技術團隊。

    CFF20LXzkOysDGVYFzFMDpeTpmUTD7Drw8QAYdstwaTe9ykDmjJ2EzFmgZSZubmewQ3vYjvOicicrKf1aNUmeQ3A.jpg

    然而,戲劇化的是,Meta的AI科學家Yann LeCun在X平臺上透露,“這篇論文曾在2023年的計算機視覺會議(CVR2023)上因‘缺少創新性’而遭到拒絕,但在2023年國際計算機視覺會議(ICCV2023)上被接受發表,并且構成了Sora的基礎?!?/span>

    CFF20LXzkOysDGVYFzFMDpeTpmUTD7DrIGdPZ3c1KiaWpyWkfHFGpLSFc3xfmnbVFc60DWwjsgyTVic56pNxSiaSw.jpg

    針對有自媒體稱Sora發明者之一是畢業于上海交大的天才少年謝賽寧,謝賽寧在朋友圈表示自己和Sora并沒有關系,但是他也談到,對于Sora這樣的復雜系統,人才第一,數據第二,算力第三,其他都沒有什么是不可替代的。

    CFF20LXzkOysDGVYFzFMDpeTpmUTD7DrPJdZ5HWicSou92icOtAbpxFSZtCAYO8GicokuCg7dX5s8EWlsRAqqZlwg.jpg

    謝賽寧目前是紐約大學計算機科學助理教授,在此之前他是Facebook人工智能研究院研究科學家。

    作為最懂DiT架構的人之一,在Sora發布后,謝賽寧在X平臺上發表了關于Sora的一些猜想和技術解釋,并表示,“Sora確實令人驚嘆,它將徹底改變視頻生成領域?!?/span>

    “當Bill和我參與DiT項目時,我們并未專注于創新,而是將重點放在了兩個方面:簡潔性和可擴展性?!彼麑懙??!昂啙嵭源碇`活性。關于標準的ViT,人們常忽視的一個亮點是,它讓模型在處理輸入數據時變得更加靈活。例如,在遮蔽自編碼器(MAE)中,ViT幫助我們只處理可見的區塊,忽略被遮蔽的部分。同樣,Sora可以通過在適當大小的網格中排列隨機初始化的區塊來控制生成視頻的尺寸?!?/span>

    CFF20LXzkOysDGVYFzFMDpeTpmUTD7DrfnnjUgDnoJSgrbKZ0zzIPD91qg4eGPyeJaZmFesnZWT2W9blJjTIvg.jpg

    不過,他認為,關于Sora仍有兩個關鍵點尚未被提及。一是關于訓練數據的來源和構建,這意味著數據很可能是Sora成功的關鍵因素;二是關于(自回歸的)長視頻生成,Sora的一大突破是能夠生成長視頻,但OpenAI尚未揭示相關的技術細節。

    年輕的開發團隊:

    應屆博士帶隊,還有00后

    隨著Sora的爆火,Sora團隊也來到世界舞臺的中央,引發了持續的關注。OpenAI官網顯示,Sora團隊由William Peebles等3人領導,核心成員包括12人。從團隊領導和成員的畢業和入職時間來看,這支團隊成立的時間較短,尚未超過1年。

    CFF20LXzkOysDGVYFzFMDpeTpmUTD7DrlUkw4NlhKN1drKAlB1GiaDmGOiaFAa2wlkPdMpw8MLBiaBSJ82X4QQMyA.jpg

    從年齡上來看,這支團隊也非常年輕,兩位研究負責人都是在2023年才剛剛博士畢業。William (Bill) Peebles于去年5月畢業,其與謝賽寧合著的擴散Transformer論文成為Sora的核心理論基礎。Tim Brooks于去年1月畢業,是DALL-E 3的作者之一,曾在谷歌和英偉達就職。

    CFF20LXzkOysDGVYFzFMDpeTpmUTD7Dr1Z4BonG8pwSptQw5HB0RHicf1ib5pnXPO6PckEDbia3VFNgJDH6s390qA.jpg

    團隊成員中甚至還有00后。團隊中的Will DePue生于2003年,2022年剛從密西根大學計算機系本科畢業,在今年1月加入Sora項目組。

    CFF20LXzkOysDGVYFzFMDpeTpmUTD7DrxNucHibEP27bm5AAN7VIDNMfPKpEuKFeVExtibSiaqibC5L8kXcTbXgnsA.jpg

    此外,團隊還有幾位華人。Li Jing是DALL-E 3的共同一作,2014年本科畢業于北京大學物理系,2019年獲得MIT物理學博士學位,于2022年加入OpenAI。Ricky Wang則是今年1月剛剛從Meta跳槽到OpenAI。其余華人員工包括Yufei Guo等尚未有太多公開資料介紹。

    (稿件來源:每經網)

    責任編輯:陳科辰

    掃一掃分享本頁
    久久99热这里只有精品66| 国产成人久久精品二三区麻豆| 亚洲系列国产精品制服丝袜第| 青娱乐2017年精品视频在线| 国产精品美女久久久久| 亚洲午夜久久久精品电影院| 国产精品嫩草影院免费| 成人午夜精品无码区久久| 精品久久8x国产免费观看| 久久久久国产精品| 真实国产精品视频国产网| 久久精品国产成人AV| 高清国产精品久久| 成人区精品人妻一区二区不卡| 牛牛在线精品观看免费正| 夜夜精品无码一区二区三区| 久久久2019精品| 国产精品538一区二区在线| 国产精品拍天天在线| 久久青青草原精品国产软件| 999在线视频精品免费播放观看| 国产99精品一区二区三区免费| 人妻少妇乱子伦精品| 依依成人精品视频在线观看| 99re在线这里只有精品| 国产精品视频九九九| 精品国产专区91在线尤物| 免费精品无码AV片在线观看 | 国产精品美女一区二区| 久久机热re这里只有精品15| 99久久精品国产免看国产一区| 亚洲精品无AMM毛片| 国产精品乱码高清在线观看| 国内精品伊人久久久久AV影院| 精品亚洲成a人在线观看| 精品国产一区二区三区AV| 99久久精品国产片久人| 中文字幕在线不卡精品视频99| 久久亚洲中文字幕精品一区| 精品国产呦系列在线观看免费| 最新69国产成人精品免费视频动漫|