Luma Labs 是一家專注于 3D 內(nèi)容生成技術(shù)的公司。其推出的 Luma AI 引發(fā)了廣泛關(guān)注。
Luma AI 成立于 2021 年 9 月,位于美國加州。該公司的核心技術(shù)是 NeRF(Neural Radiance Fields),這是一種三維重建技術(shù),可通過少量照片生成、著色和渲染逼真的 3D 模型。
Luma AI 推出的 Dream Machine 是一款強大的視頻生成模型。它能夠在 120 秒內(nèi)生成 120 幀的高質(zhì)量視頻,單個視頻最長為 5 秒。生成的視頻具有逼真的流暢運動、電影攝影和戲劇效果,還能理解物理交互,確保生成的視頻角色和場景具有一致性和物理準(zhǔn)確性。
Dream Machine 支持文生視頻和圖生視頻。用戶每月有 30 次免費生成的額度,目前免費版每月可生成 30 個,30 美元套餐一共 180 個。它可以在官網(wǎng) https://lumalabs.ai/ 直接體驗,用戶登錄后,通過輸入關(guān)鍵詞或上傳圖片并添加提示詞即可生成視頻。
Luma AI 的出現(xiàn)引發(fā)了 AI 視頻生成領(lǐng)域的熱潮,其效果獲得了很多網(wǎng)友的好評。但模型也存在一些問題,比如切換視角時汽車會變形,狗的運動沒有用到爪子,顯示文字會有問題等,不過官方表示會繼續(xù)優(yōu)化。此外,Luma AI 還推出了關(guān)鍵幀功能,讓用戶可以上傳起始圖片和結(jié)束圖片,并通過文字描述生成中間的過渡動畫和特效。
Luma AI 的核心技術(shù) NeRF 詳解
NeRF(神經(jīng)輻射場)是 Luma AI 的核心技術(shù)之一。它是一種三維重建技術(shù)方案,能夠基于現(xiàn)有視角的圖像生成新視角的圖像。簡單來說,通過拍攝大量圖片或視頻,NeRF 可以將其轉(zhuǎn)化為一個可微分的三維場景。
NeRF 的工作原理包括輸入多視角的 2D 圖像和相應(yīng)的相機參數(shù),如位置、方向等。其網(wǎng)絡(luò)結(jié)構(gòu)是一個多層感知器(MLP),用于從輸入的空間坐標(biāo)和視角方向預(yù)測顏色和密度。在體渲染過程中,使用體渲染技術(shù),將神經(jīng)網(wǎng)絡(luò)預(yù)測的密度和顏色組合成最終的圖像。
與傳統(tǒng)的攝影測量方案相比,NeRF 的優(yōu)勢在于可以用更少量的數(shù)據(jù)生成三維模型。這意味著用戶只需用一臺手機,就可以短時間、低成本地生成所需的 3D 模型。
例如,在建筑設(shè)計領(lǐng)域,設(shè)計師可以通過拍攝建筑物的不同角度照片,利用 NeRF 技術(shù)快速生成逼真的三維模型,以便更好地展示和分析設(shè)計效果。
NeRF 的工作原理包括輸入多視角的 2D 圖像和相應(yīng)的相機參數(shù),如位置、方向等。其網(wǎng)絡(luò)結(jié)構(gòu)是一個多層感知器(MLP),用于從輸入的空間坐標(biāo)和視角方向預(yù)測顏色和密度。在體渲染過程中,使用體渲染技術(shù),將神經(jīng)網(wǎng)絡(luò)預(yù)測的密度和顏色組合成最終的圖像。
與傳統(tǒng)的攝影測量方案相比,NeRF 的優(yōu)勢在于可以用更少量的數(shù)據(jù)生成三維模型。這意味著用戶只需用一臺手機,就可以短時間、低成本地生成所需的 3D 模型。
例如,在建筑設(shè)計領(lǐng)域,設(shè)計師可以通過拍攝建筑物的不同角度照片,利用 NeRF 技術(shù)快速生成逼真的三維模型,以便更好地展示和分析設(shè)計效果。
Luma AI 視頻生成模型 Dream Machine 的優(yōu)勢
Luma AI 視頻生成模型 Dream Machine 具有眾多顯著優(yōu)勢。
首先,它能夠在 120 秒內(nèi)生成 120 幀的高質(zhì)量視頻,這種高效率大大縮短了視頻創(chuàng)作的時間,為創(chuàng)作者提供了極大的便利。
其次,Dream Machine 生成的視頻具有逼真的流暢運動、電影級別的攝影和戲劇效果,能夠匹配攝像機運動,創(chuàng)造出令人驚艷的畫面。在處理包含人物的場景時,其動態(tài)效果明顯,人物動作流暢自然,甚至還能自動補上一些新的畫面。
此外,Dream Machine 對物理和人物運動有深入的理解,例如在處理圖像時,能保持較高的圖像質(zhì)量,包括人物形象的穩(wěn)定一致,不會出現(xiàn)嚴(yán)重的扭曲模糊,有效提升了視頻創(chuàng)作的質(zhì)量和效率。
而且,Dream Machine 不僅可以通過文本生成視頻,還支持利用圖片作為引導(dǎo)來生成視頻內(nèi)容,具有多模態(tài)輸入的特點。
比如,在廣告制作中,利用 Dream Machine 可以快速生成吸引人的廣告視頻,提高品牌宣傳效果;在故事創(chuàng)作中,能將靜態(tài)圖像和文本轉(zhuǎn)化為動態(tài)故事情節(jié),為創(chuàng)作者提供更多靈感。
首先,它能夠在 120 秒內(nèi)生成 120 幀的高質(zhì)量視頻,這種高效率大大縮短了視頻創(chuàng)作的時間,為創(chuàng)作者提供了極大的便利。
其次,Dream Machine 生成的視頻具有逼真的流暢運動、電影級別的攝影和戲劇效果,能夠匹配攝像機運動,創(chuàng)造出令人驚艷的畫面。在處理包含人物的場景時,其動態(tài)效果明顯,人物動作流暢自然,甚至還能自動補上一些新的畫面。
此外,Dream Machine 對物理和人物運動有深入的理解,例如在處理圖像時,能保持較高的圖像質(zhì)量,包括人物形象的穩(wěn)定一致,不會出現(xiàn)嚴(yán)重的扭曲模糊,有效提升了視頻創(chuàng)作的質(zhì)量和效率。
而且,Dream Machine 不僅可以通過文本生成視頻,還支持利用圖片作為引導(dǎo)來生成視頻內(nèi)容,具有多模態(tài)輸入的特點。
比如,在廣告制作中,利用 Dream Machine 可以快速生成吸引人的廣告視頻,提高品牌宣傳效果;在故事創(chuàng)作中,能將靜態(tài)圖像和文本轉(zhuǎn)化為動態(tài)故事情節(jié),為創(chuàng)作者提供更多靈感。
Luma AI 模型存在的問題及優(yōu)化措施
Luma AI 模型在發(fā)展過程中存在一些問題。例如,在視角轉(zhuǎn)換時,汽車可能會出現(xiàn)變形;狗的運動沒有正確地使用爪子;顯示文字時可能會發(fā)生錯誤,如將“Luma”錯誤顯示為“Lumma”;甚至在某些情況下,北極熊轉(zhuǎn)身時會出現(xiàn)兩個頭的奇異現(xiàn)象等。
針對這些問題,Luma AI 表示已經(jīng)認(rèn)識到,并正在積極采取優(yōu)化措施。他們持續(xù)優(yōu)化模型,以提供更加穩(wěn)定和高質(zhì)量的視頻生成服務(wù)。通過不斷改進算法、增加訓(xùn)練數(shù)據(jù)、優(yōu)化模型架構(gòu)等方式,致力于提升模型的準(zhǔn)確性和穩(wěn)定性,為用戶帶來更好的體驗。
針對這些問題,Luma AI 表示已經(jīng)認(rèn)識到,并正在積極采取優(yōu)化措施。他們持續(xù)優(yōu)化模型,以提供更加穩(wěn)定和高質(zhì)量的視頻生成服務(wù)。通過不斷改進算法、增加訓(xùn)練數(shù)據(jù)、優(yōu)化模型架構(gòu)等方式,致力于提升模型的準(zhǔn)確性和穩(wěn)定性,為用戶帶來更好的體驗。
Luma AI 關(guān)鍵幀功能介紹
Luma AI 的關(guān)鍵幀功能為視頻創(chuàng)作帶來了新的可能性。關(guān)鍵幀功能主要用于控制視頻能力,允許創(chuàng)作者在時間軸上設(shè)置特定的點,這些點定義了動畫或視頻的特定狀態(tài)或?qū)傩浴?br class="container-PzX343 wrapper-NZ1vL1 undefined" style="-webkit-font-smoothing: antialiased; box-sizing: border-box; -webkit-tap-highlight-color: rgba(0, 0, 0, 0); overflow-anchor: auto; color: initial; content: ""; display: block; font-size: var(--md-box-paragraph-spacing); margin: 1em;">用戶可以通過上傳一張起始圖片和一張結(jié)束圖片,然后通過文字描述想要的特效和場景變化,Dream Machine 就能自動生成中間的過渡動畫和特效,絲滑生成轉(zhuǎn)場。這使得視頻創(chuàng)作更加直觀和便捷,大大降低了非專業(yè)人員的創(chuàng)作門檻。
例如,用戶想要創(chuàng)作一個人物從站立到奔跑的視頻,只需上傳站立和奔跑的圖片,描述中間的動作變化,如“人物逐漸加速,步伐變大”,就能輕松生成過渡效果。
Luma AI 的關(guān)鍵幀功能不僅適用于創(chuàng)意視頻制作,如廣告、短片制作和社交媒體內(nèi)容創(chuàng)作,還在互動劇業(yè)務(wù)、市場營銷、教育與培訓(xùn)等領(lǐng)域有著廣泛的應(yīng)用。
例如,用戶想要創(chuàng)作一個人物從站立到奔跑的視頻,只需上傳站立和奔跑的圖片,描述中間的動作變化,如“人物逐漸加速,步伐變大”,就能輕松生成過渡效果。
Luma AI 的關(guān)鍵幀功能不僅適用于創(chuàng)意視頻制作,如廣告、短片制作和社交媒體內(nèi)容創(chuàng)作,還在互動劇業(yè)務(wù)、市場營銷、教育與培訓(xùn)等領(lǐng)域有著廣泛的應(yīng)用。
Luma AI 作為一家在 3D 內(nèi)容生成和視頻生成領(lǐng)域不斷創(chuàng)新的公司,其技術(shù)和產(chǎn)品為用戶帶來了全新的體驗和更多的創(chuàng)作可能性。無論是 NeRF 技術(shù)、Dream Machine 模型還是關(guān)鍵幀功能,都展現(xiàn)了 Luma AI 在人工智能與創(chuàng)意融合方面的努力和成果。隨著技術(shù)的不斷進步和優(yōu)化,相信 Luma AI 將在未來為我們帶來更多驚喜和突破。