Mục mục bài viết

Cách sử dụng Stable Diffusion chi tiết đã trở thành một chủ đề hot trong cộng đồng những người yêu thích công nghệ và AI. Với khả năng tạo ra những hình ảnh chất lượng cao từ các mô tả văn bản, Stable Diffusion đang thu hút sự chú ý của nhiều người dùng. Trong bài viết này, chúng ta sẽ đi sâu vào cách thức hoạt động của Stable Diffusion và hướng dẫn bạn từng bước để khai thác tối đa tiềm năng của công nghệ này.

Cách sử dụng Stable Diffusion chi tiết

1. Entering prompts (Nhập lời nhắc):

Người dùng nhập văn bản mô tả ngắn gọn (nhắc nhở) về hình ảnh cần tạo.
Lời nhắc này cung cấp hướng dẫn cho AI để tạo ra hình ảnh.

2. Add and remove noise (Thêm và loại bỏ tiếng ồn):

Đầu tiên thêm nhiễu ngẫu nhiên vào hình ảnh.
Tiếng ồn này sau đó sẽ dần được loại bỏ để tạo ra hình ảnh dựa trên lời nhắc.

3. Image generation (Tạo hình ảnh):

Bắt đầu bằng một hình ảnh thô và dần dần thêm các chi tiết tinh tế.
Thông qua quá trình này, một hình ảnh sẽ được hình thành phù hợp với lời nhắc.

4.Checking and adjusting the results (Kiểm tra và điều chỉnh kết quả):

Người dùng sẽ xem lại hình ảnh được tạo ra và thực hiện các điều chỉnh nếu cần thiết.
Việc thay đổi lời nhắc có thể tạo ra những kết quả khác nhau.

Xem thêm Cách chọn Sampling method Stable Diffusion và vì sao

5.Use of extensions (Cài đặt tiện ích mở rộng):

Stable Diffusion có các tiện ích mở rộng để cải thiện chất lượng hình ảnh.
Có thể sử dụng các công cụ như LoRA và ControlNET để tạo ra hình ảnh chi tiết hơn.

Xem thêm > Cách chọn Sampling method Stable Diffusion và vì sao

Mô tả giao diện

Giao diện người dùng web Stable Diffusion của Automatic1111 được thiết kế để dễ sử dụng, ngay cả với người mới bắt đầu.

Giải thích từng khu vực

Cách sử dụng Stable Diffusion chi tiết — Giao diện tổng quản của Stable Diffusion

1. Checkpoint / Prompt Area: Khu vực để nhập lệnh Prompt và các yếu tố bị loại trừ để ai không đưa vào. Ngoài ra còn có các tab để chuyển đổi giữa các công cụ như text2img và thay đổi cài đặt.

2.Generation parameter Area (Khu vực tham số thế hệ): Khu vực này được sử dụng để thiết lập phương pháp lấy mẫu, kích thước của hình ảnh được tạo ra và các tham số khác cần thiết cho thế hệ, chẳng hạn như các bước và CFG. Việc chuyển đổi giữa các tab cũng cho phép bạn gọi Lora và Embedding.

3.Generate button Area (Khu vực nút tạo): Ngoài nút “Tạo”, bạn có thể quản lý các cài đặt tải nhanh.

4.Preview Area (Khu vực xem trước kết quả): Ngoài việc xem trước hình ảnh đã tạo, còn có các nút tắt để gửi hình ảnh đã tạo đến Img2img và các ứng dụng khác.

Giới thiệu về Checkpoint / Prompt Area

1. Checkpoint (Điểm kiểm tra): Chọn các điểm kiểm tra đã được đào tạo trong mô hình.

2. Page switching tab (Tab chuyển trang): Chuyển đến trang quản lý “text2img” và các cài đặt và tiện ích mở rộng khác.

3. Prompt (Yêu cầu): Mô tả đặc điểm của hình ảnh bạn muốn tạo.

4. Negative prompt (Lời nhắc tiêu cực): Mô tả các đặc điểm của hình ảnh mà bạn không muốn tạo.

Về tham số thế hệ Khu vực

1. Sampling method (Phương pháp lấy mẫu): Chọn loại máy lấy mẫu. (Có thể chọn loại lịch trình trong v1.9.0.)

2. Sampling steps (Các bước lấy mẫu): Thiết lập số bước lấy mẫu.

3. Hires. Fix (Tăng nét): Chọn có tạo hình ảnh có độ phân giải cao hay không.

4. Refiner (Bộ lọc): Bộ lọc chủ yếu được sử dụng để kết hợp giai đoạn thứ hai của SDXL.

5. Width (Chiều rộng): Thiết lập chiều rộng của hình ảnh được tạo ra.

6. Height (Chiều cao): Thiết lập chiều cao của hình ảnh được tạo ra.

7. Batch count (Số lượng hàng loạt): Thiết lập số lượng hình ảnh được tạo ra để xuất ra.

8. Batch size (Kích thước lô): Thiết lập số lượng hình ảnh được tạo đồng thời trong một lần xuất duy nhất.

9. CFG Scale (Tỷ lệ CFG): Thiết lập mức độ gần đúng của hình ảnh được tạo ra so với lời nhắc.

10. Seed (hạt giống): Bạn có thể ngẫu nhiên hóa giá trị seed (seed được coi như là 1 căn cước công dân và mỗi ảnh được gắn với 1 seed) hoặc bạn có thể nhập một số tùy ý. Nút “️️️️️” cho phép bạn ngẫu nhiên hóa / nút “♻️” gọi lại seed trước đó / “Extra” cho phép bạn đặt Seed chi tiết hơn.

11. Script (kịch bản): Gọi các kịch bản như X/Y/Z

Giới thiệu về nút tạo khu vực

1. Generate (Nút tạo): Các nút để bắt đầu, tạm dừng và hủy tạo hình ảnh

2. Reload button (Nút tải lại): Gọi lại các cài đặt trước đó còn lưu trong bộ nhớ đệm.

3. Clear button (Nút Xóa): Xóa lời nhắc/lời nhắc phủ định.

4. Apply all to seclection Style to Prompt (Áp dụng tất cả cho mục chọn kiểu để nhắc nhở): Ghi kiểu hiện đang được chọn vào lời nhắc và lời nhắc phủ định.

5. Style edit button (Nút chỉnh sửa kiểu): Gọi lại lời nhắc và lời nhắc phủ định dưới dạng cài đặt từ trước.

Giới thiệu về khu vực xem trước

1. Preview (Xem trước): Hình ảnh được tạo ra sẽ được hiển thị.

2. Output folder button (Thư mục xuất ra): Thư mục chứa hình ảnh đầu ra sẽ mở trong File Explorer.

3. Save image button (Lưu hình ảnh): Lưu hình ảnh được chọn trong bản xem trước.

4. Zip the image button (Nén hình ảnh): Nén tất cả hình ảnh hiển thị trong bản xem trước.

5. Send to img2img button (Gửi đến tab img2img): Gửi hình ảnh được chọn trong bản xem trước đến img2img cùng với lời nhắc và cài đặt.

6. Send to img2img inpaint button (Nút Gửi đến inpaint img2img): Hình ảnh được chọn trong bản xem trước sẽ được gửi đến inpaint của img2img cùng với lời nhắc và cài đặt.

7. Send to Extras button (Gửi đến mục bổ sung): Gửi hình ảnh được chọn trong bản xem trước đến mục bổ sung.

8. Hires.Fix button (Nút Hires.Fix): Hình ảnh được chọn trong bản xem trước sẽ có độ phân giải cao hơn với Hires.Fix theo cài đặt hiện tại.

Khi hình ảnh xem trước được hiển thị, siêu dữ liệu của hình ảnh sẽ xuất hiện ở cuối vùng xem trước.

Cấu trúc cơ bản của lời nhắc

Lời nhắc là văn bản truyền đạt ngắn gọn và rõ ràng đặc điểm của hình ảnh do AI tạo ra. Điều quan trọng là phải đưa ra hướng dẫn chính xác cho AI bằng cách sử dụng các từ khóa và cụm từ cụ thể.
Ví dụ: Tạo hình ảnh một cô gái tóc đen Nếu bạn muốn tạo hình ảnh một cô gái tóc đen đang đứng trên phố, hãy viết lời nhắc như sau.

Phong cách Danbooru:
1girl, black_hair, standing, street, front_view
Phong cách ngôn ngữ tự nhiên:
A girl with black hair standing on the street, viewed from the front.

Lựa chọn phong cách nhanh chóng

Có hai kiểu nhắc nhở chính.

Kiểu Danbooru: Liệt kê các từ khóa (thẻ) được phân tách bằng dấu phẩy.
Phong cách ngôn ngữ tự nhiên: Mô tả theo định dạng câu tự nhiên hơn.

Những phong cách này cũng có thể được kết hợp. Tùy thuộc vào sự kết hợp của các từ và cụm từ khác nhau, AI sẽ tạo ra nhiều hình ảnh khác nhau. Do đó, chúng tôi khuyên bạn nên thử các lời nhắc khác nhau để tìm ra kết quả tốt nhất.

Tối ưu hóa nhanh chóng

Để viết một lời nhắc tốt, hãy ghi nhớ những điều sau

Độ rõ nét: Truyền đạt rõ ràng các đặc điểm của hình ảnh mà bạn muốn tạo ra.
Đơn giản: Bỏ qua những thông tin không cần thiết và tập trung vào những từ khóa cần thiết.
Các biến thể: Hãy thử nhiều phong cách và biểu cảm khác nhau và quan sát phản ứng của AI.

Làm thế nào để viết lời nhắc tiêu cực

Lời nhắc tiêu cực là văn bản mô tả đặc điểm của hình ảnh mà bạn không muốn tạo. Chỉ định các thành phần bạn không muốn đưa vào hình ảnh được tạo. Kiểu lời nhắc phải được viết theo kiểu Danbooru.
Ví dụ, nếu chúng ta tạo lời nhắc được giới thiệu trước đó với lời nhắc tiêu cực để trống, một người mất cân bằng có thể được tạo ra. Để tránh việc tạo ra như vậy, chúng ta sẽ bao gồm các lời nhắc mà chúng ta không muốn bao gồm trong lời nhắc tiêu cực.
worst, ugry, deformed,
Chất lượng của thế hệ được cải thiện bằng cách thêm vào những lời nhắc tiêu cực như “tệ nhất”, “xấu xí” và “biến dạng”.

Về các bước lấy mẫu

Nhìn chung, giá trị “Sampling steps” càng cao thì chất lượng hình ảnh càng cao, nhưng việc tăng giá trị không cần thiết sẽ làm tăng thời gian cần thiết để tạo hình ảnh. Tuy nhiên, nếu bạn tăng giá trị không cần thiết thì sẽ làm tăng thời gian tạo hình ảnh. Để tham khảo, hình ảnh trên cho thấy hầu như không có thay đổi khi so sánh Steps: 30 và Steps: 70.
Tạo khoảng 25-45 cho đến khi bạn quen với nó.

Về Phương pháp lấy mẫu và Lập lịch tiếng ồn

Phương pháp lấy mẫu

Trong quá trình tạo ra một hình ảnh, Stable Diffusion ban đầu tạo ra một hình ảnh hoàn toàn ngẫu nhiên trong không gian không gian tiềm ẩn (ví dụ: 512×512 chấm). Sau đó, nhiễu dự đoán ước tính nhiễu trong hình ảnh đó và nhiễu dự đoán được trừ khỏi hình ảnh. Quá trình này được lặp lại hàng chục lần cho đến khi tạo ra được một hình ảnh rõ nét.
Quá trình loại bỏ nhiễu này được gọi là lấy mẫu vì Stable Diffusion tạo ra một hình ảnh mẫu mới ở mỗi bước. Phương pháp được sử dụng để lấy mẫu được gọi là bộ lấy mẫu hoặc kỹ thuật lấy mẫu.
Dưới đây là một ví dụ về sự kết hợp phương pháp/bước thường được sử dụng.

Tập trung vào tốc độ

DPM++ 2M Karras: 20-30 bước
UniPC: 20-30 bước

Tập trung vào chất lượng

DPM++ SDE Karras: 10-15 bước
DDIM: 10-15 bước

Các thiết lập được đề xuất sẽ được giải thích theo mô hình điểm kiểm tra, vì vậy bạn nên tham khảo chúng.

Về Loại Lịch Trình (Lịch Trình Tiếng Ồn)

“Bảng biểu tiếng ồn” là tỷ lệ đường cong trong đó mức giảm tiếng ồn được tăng dần theo từng bước cho đến khi tiếng ồn cuối cùng giảm xuống bằng không.
Tùy thuộc vào loại lịch trình tiếng ồn, đường cong suy giảm từ mức tiếng ồn cao nhất ở bước đầu tiên đến trạng thái tiếng ồn bằng không ở bước cuối cùng sẽ thay đổi.
Trong phiên bản 1.9.0, giờ đây bạn có thể áp dụng một lịch trình khác với lịch trình mặc định. Đối với người mới bắt đầu, việc chọn “Tự động” sẽ tự động chọn lịch trình mặc định cho phương pháp lấy mẫu.

Giới thiệu về CFG Scale

“Thang CFG (thang hướng dẫn không phân loại)” là giá trị điều chỉnh mức độ trung thực của hình ảnh được tạo ra theo lời nhắc.
Giá trị CFG Scale lớn tạo ra hình ảnh gần giống pronto, nhưng nếu giá trị quá cao, hình ảnh sẽ bị méo. Nếu giá trị quá nhỏ, hình ảnh sẽ thô hơn, nhưng chất lượng hình ảnh sẽ được cải thiện. Giá trị được xác định bằng cách quan sát sự cân bằng này.
Tùy thuộc vào mẫu và phong cách hình ảnh bạn muốn tạo, nhưng cho đến khi bạn quen với nó, hãy sử dụng giá trị từ 5 đến 9.

Về Hires.Sửa chữa

“Hires.Fix” sẽ tăng độ phân giải của hình ảnh được tạo ra đồng thời thêm nhiều chi tiết hơn vào hình ảnh. Nếu hộp kiểm được chọn, Hires.Fix sẽ được áp dụng cho tất cả hình ảnh được tạo ra.

Upscaler: Chọn một upscaler. Đối với hệ thống minh họa, Latent / R-ESRGAN 4x+ / R-ESRGAN 4x+ Anime6B thường được sử dụng.

Các bước Hires: Thêm chi tiết bằng cách thêm nhiều bước hơn Bước lấy mẫu của ảnh gốc. Ví dụ, nếu Bước lấy mẫu là 20 và Bước HiRes là 20, tổng số bước là 40. 10 đến 15 là dễ sử dụng và nếu Bước lấy mẫu lớn hơn 50, Bước HiRes phải bằng một nửa số đó.

Cường độ khử nhiễu: Càng gần 0 thì hình ảnh càng gần với hình ảnh gốc. Mức khuyến nghị là 0,3 đến 0,5.

Nâng cấp theo: Nhập tỷ lệ phóng đại.

Thay đổi chiều rộng thành/Thay đổi chiều cao thành: Nếu bạn muốn chiều rộng và chiều cao là tùy chọn, vui lòng nhập chúng vào đây.

Giới thiệu về Refiner

“Refiner” là công cụ tinh chỉnh hình ảnh khi tạo mô hình SDXL. Đánh dấu vào ô nếu bạn muốn điều chỉnh hoặc cải thiện thêm cho hình ảnh đã tạo.

Điểm kiểm tra: Chọn mô hình sẽ được sử dụng cho Refiner.

Chuyển đổi tại: Nhập tỷ lệ giai đoạn phát điện cần chuyển đổi. 1 = không chuyển đổi 0,5 = chuyển đổi ở một nửa giai đoạn.

Để tìm hiểu thêm về cách sử dụng máy lọc chi tiết hơn, vui lòng tham khảo bài viết sau.

Giới thiệu về Clip Skip

“Clip Skip” là một chỉ báo thiết lập mức độ chính xác của các lời nhắc bạn nhập được phản ánh trong Giao diện người dùng web Stable Diffusion và có thể có các giá trị từ 1 đến 12. Cụ thể, nó có các đặc điểm sau

Đối với các giá trị nhỏ: Hình ảnh minh họa được tạo theo yêu cầu.
Đối với các giá trị lớn: Hình minh họa sẽ được tạo ra mà không cần nhắc nhở.

Giá trị phù hợp cho cài đặt bỏ qua clip thay đổi tùy theo từng model. Tham khảo trang tải xuống cho model bạn muốn sử dụng và kiểm tra giá trị bỏ qua Clip được khuyến nghị. Nhìn chung, bắt đầu với Bỏ qua Clip là 2 và thay đổi giá trị thành 1 nếu lời nhắc không dịch tốt sang hình ảnh sẽ làm tăng khả năng nó sẽ hoạt động.

Sự khác biệt giữa “Clip skip” và “CFG scale”

Stable Diffusion cũng có một thiết lập gọi là “CFG scale” chỉ định mức độ lời nhắc ảnh hưởng đến hình ảnh. Clip skip và CFG scale đều là những thiết lập ảnh hưởng đến lời nhắc, nhưng có một sự khác biệt cơ bản.

Bỏ qua clip:

Cài đặt để tạo hình ảnh dựa trên sự khác biệt trong giai đoạn diễn giải lời nhắc.
Có thể chọn kết quả mong muốn từ các hình ảnh được tạo ra một nửa.
Thông thường sử dụng 1 hoặc 2.

Thang đo CFG:

Một thiết lập cung cấp cho tất cả các lớp một mức độ hiểu biết nhất định, nhưng để AI quyết định phần nhắc nhở.
Việc diễn giải các lời nhắc được giao cho AI để tạo ra hình ảnh.

Bằng cách điều chỉnh Clip skip và CFG scale, bạn có thể điều chỉnh cân bằng để tạo ra hình ảnh lý tưởng cho lời nhắc. Điều chỉnh cài đặt cho phù hợp với sở thích và kiểu máy của riêng bạn.

Cách kích hoạt Clip bỏ qua

“Clip skip” không khả dụng trong quá trình cài đặt ban đầu của Stable Diffusion web UI. Vui lòng sử dụng phương pháp sau để bật tính năng này.

Mở cài đặt: Mở tab “Cài đặt” trong vùng nhắc điểm kiểm tra.

Lựa chọn giao diện người dùng: Chọn “Giao diện người dùng” từ menu bên trái.

Truy cập vào danh sách Cài đặt nhanh: Nhấp vào “[thông tin] Danh sách Cài đặt nhanh” nằm thứ hai từ trên cùng của màn hình.

Cài đặt bỏ qua clip: Nhập CLIP_stop_at_last_layersvào hộp tìm kiếm xuất hiện và chọn mục thích hợp từ kết quả tìm kiếm.

CLIP_stop_at_last_layers

Áp dụng cài đặt: Sau khi lựa chọn xong, hãy nhấp vào nút “Áp dụng cài đặt”.

Khởi động lại UI: Nhấn “Tải lại UI” để khởi động lại giao diện người dùng.

Xác nhận bỏ qua Clip: Sau khi khởi động lại, nếu “Bỏ qua Clip” hiển thị ở bên phải “Điểm kiểm tra khuếch tán ổn định” thì quá trình cài đặt đã hoàn tất.

Tạo hình ảnh

Dựa trên các thông số bạn thiết lập, hãy nhấp vào nút “Tạo” hoặc Ctrl+Enterđể bắt đầu tạo hình ảnh. Hình ảnh được tạo sẽ được hiển thị trong vùng xem trước và có thể được lưu.

Ngắt và bỏ qua thế hệ

Trong quá trình tạo, nút “Ngắt｜Bỏ qua” cho phép người dùng ngắt và bỏ qua quá trình tạo.

Ngắt quá trình tạo: Nhấp vào “Ngắt” sẽ thay đổi thành “Đang ngắt…” và bạn có thể ngắt quá trình tạo bằng cách nhấp vào đó một lần nữa.
Bỏ qua thế hệ: Nhấn nút này khi “Số lượng lô” của thế hệ là 2 hoặc nhiều hơn sẽ kết thúc thế hệ hiện tại và chuyển sang thế hệ tiếp theo.

Tự động tạo ra

Nhấp chuột phải vào nút “Generate” và chọn “Generate forver | Cancel Generate forver” để bắt đầu tạo tự động. Chọn “Generate forver” sẽ bắt đầu tạo tự động. Chọn “Cancel Generate forver” trong quá trình tạo tự động sẽ kết thúc quá trình tạo tự động.

Khi bạn tạo hình ảnh nhiều lần, một số lượng lớn hình ảnh sẽ tích tụ trong thư mục “đầu ra” stable-diffusion-webui > outputs. (Nhấp vào nút trong vùng xem trước để mở thư mục đích.) Đừng quên quản lý thư mục này thường xuyên.

Phần kết luận

Bài viết này trình bày chi tiết các bước cơ bản để tạo hình ảnh AI bằng tính năng text2img của Giao diện người dùng web Stable Diffusion. Hướng dẫn này sẽ giúp bạn thực hiện những bước đầu tiên vào thế giới tạo hình ảnh dựa trên AI.

Giao diện người dùng web Stable Diffusion là một công cụ trực quan và có khả năng tùy chỉnh cao, hỗ trợ mạnh mẽ cho người dùng hiện thực hóa tầm nhìn sáng tạo độc đáo của mình. Chức năng text2img cho phép người dùng biến văn bản thành nghệ thuật thị giác theo trí tưởng tượng thành hiện thực.

Chúng tôi hy vọng hướng dẫn này sẽ hữu ích cho khả năng sáng tạo kỹ thuật số của bạn.

Nguồn: Bài viết gốc

Đừng quên theo dõi trang Facebook chúng tôi trên mạng xã hội của chúng tôi

►Telegram: Cộng đồng số
►Group Facebook: Cộng đồng số
►Youtube:  Cộng đồng số
►Tiktok:  Cộng đồng số
►Printeres:  Cộng đồng số
►intagram:  Cộng đồng số

để cập nhật nhiều thông tin mới nhất nhé. Chúc các bạn thành công