在這篇文章中將詳細說明如何在stable-diffusion-webui中套用各種模型。
如果還沒完成安裝可以參考這篇文章:[AI繪圖] Win11安裝Stable-Diffusion-WebUI(AUTOMATIC1111)流程
在成功安裝stable-diffusion-webui後預設安裝有一個名為v1-5-pruned-emaonly的checkpoint模型。
另外網路上有許多高手分享了不同的訓練模型可以作使用,目前最受歡迎的模型共享網站是civitai.com,每個模型在生成圖像效果和擅長領域方面都有所差異。
常見的模型類型包括checkpoint、Textual Inversion(embedding)、lora和LyCORIS (LoHa/LoCon)。
LyCORIS (LoHa/LoCon)類模型在stable-diffusion-webui的預設設定中是不支援的,需要安裝額外的插件(plugin)才可以作使用,就不在這邊做進一步的說明了。
checkpoint
checkpoint簡單來說就是主要模型,檔案大小大約介於2到10GB之間,對於整體風格有重大影響。這裡用在civitai找到的一個名為”majicMIX realistic“的模型來進行實作。
首先要將下載的”majicmixRealistic_v6.safetensors”檔案放置在stable-diffusion-webui的安裝資料夾下的models\Stable-diffusion資料夾內。
我的環境下使用的路徑為”C:\stable-diffusion-webui\models\Stable-diffusion”。
這裡需要特別注意的是,如果模型的附檔名是ckpt,就可能存在隱藏惡意程式碼的風險。所以可以的話儘量使用副檔名為safetensors的模型。
檔案放置完成後,使用瀏覽器開啟stable-diffusion-webui的介面。在畫面的左上角有一個下拉選單,在這裡選擇我們剛剛下載的majicMIX realistic模型。
如果下拉選單中沒有看到剛剛下載的模型,可以點擊下拉選單旁邊的重新整理按鈕。
這裡我就用”a cute girl in school uniform”做一個簡單的對比測試。
左側為內建的v1-5-pruned-emaonly模型,而右側則是由majicmixRealistic_v6生成的結果。可以明顯看出這兩者在畫風上存在巨大的差別。
Textual Inversion(embedding)
Textual Inversion 是一種輕量級的擴充模型,其檔案大小介於數十KB到數百KB之間。
除了能夠影響畫面風格外,Textual Inversion 目前最常見的應用是用來修正一些常見的負面提示。
這裡在civitai 網站上找到並下載我常使用的badhandv4模型作為例子。
Textual Inversion 的存放路徑位於 stable-diffusion-webui 安裝資料夾中的embeddings資料夾。
我的環境下使用的路徑為”C:\stable-diffusion-webui\embeddings”。
在將模型放置正確位置後,使用瀏覽器開啟stable-diffusion-webui的介面。
點擊在Generate按鈕下方的紅色按鈕,此時prompt區塊下方將出現模型選擇視窗。
如果在Textual Inversion頁籤中未看到剛剛下載的模型,可以點擊Refresh按鈕進行更新。
Textual Inversion 的使用方式是在模型選擇視窗中直接點擊要使用的模型,點擊模型的圖示後相應的提示詞(prompt)將出現在prompt/negative prompt欄位中。
對於像手部修復這樣的Textual Inversion,需要先點擊negative prompt欄位,再點擊模型選擇視窗中的模型,以便正確的將相應的提示詞(prompt)添加到negative prompt欄位。
lora
lora是另一種輕量級的擴充模型,其檔案大小介於數十KB到數百KB之間。lora可以說是目前影響畫面風格比較主流的方式之一。
這裡我們以一個3D風格的lora模型3DMM作為例子,同樣在civitai網站上找到該模型並下載。
這裡需要注意的是,觸發詞(trigger words)欄位中的內容需要先複製記錄下來,稍後我們會用到(此處的例子是3DMM)。
lora模型放置的位置是stable-diffusion-webui安裝資料夾中的models\Lora資料夾內。
我的環境下使用的路徑為”C:\stable-diffusion-webui\models\Lora”。
放置好模型後使用瀏覽器開啟stable-diffusion-webui的介面。
一樣點擊在Generate按鈕下方的紅色按鈕,此時prompt區塊下方將出現模型選擇視窗。如果在lora頁籤中沒有看到剛剛下載的模型,可以點擊Refresh按鈕進行更新。
點擊模型的圖示後,lora模型將以的格式出現在prompt欄位中。其中,後面的數字1代表該模型的權重,數字越高表示對畫面的影響越大。另外lora模型還需要在prompt中填入相應的觸發詞。
以”a cute girl in school uniform, 3DMM, “作為例子,可以看到生成的女學生呈現了3D畫風,同時保留了主模型majicMIX realistic中的精緻亞洲臉孔風格。
總結
由於網路上有許多高手分享了各種模組,我們可以靈活地運用喜歡的主模組,結合多個Textual Inversion(embedding)、lora等模組,以達到我們所期望的畫面效果。這種彈性的選擇讓我們能夠更好地探索並發揮stable-diffusion-webui的潛力!