sơ khai Cái nhìn cận cảnh hơn về DALL-E 3 của OpenAI - Unite.AI
Kết nối với chúng tôi

Kỹ thuật nhanh chóng

Cái nhìn cận cảnh hơn về DALL-E 3 của OpenAI

mm

Được phát hành

 on

DALL · E 3

Trong tạp chí Trí tuệ nhân tạo thế giới, cập nhật thông tin mới nhất là tên của trò chơi. Và khi nói đến việc tạo ra hình ảnh, Khuếch tán ổn định và midjourney là nền tảng mà mọi người đang nói đến – cho đến tận bây giờ.

OpenAI, được hỗ trợ bởi gã khổng lồ công nghệ Microsoft, đã giới thiệu DALL · E 3 vào tháng 9 20th, 2023.

DALL-E 3 không chỉ tạo ra hình ảnh; đó là việc biến ý tưởng của bạn thành hiện thực, đúng như cách bạn tưởng tượng. Và phần tốt nhất? Nó nhanh, giống như, thực sự nhanh. Bạn có ý tưởng, bạn đưa nó vào DALL-E 3 và bùm, hình ảnh của bạn đã sẵn sàng.

Vì vậy, trong bài viết này, chúng ta sẽ đi sâu tìm hiểu DALL-E 3 là gì. Chúng ta sẽ nói về cách thức hoạt động của nó, điều gì làm nó khác biệt với phần còn lại và tại sao nó có thể trở thành công cụ mà bạn không biết là mình cần. Cho dù bạn là nhà thiết kế, nghệ sĩ hay chỉ là người có nhiều ý tưởng hay, bạn sẽ muốn tiếp tục nỗ lực vì điều này. Bắt đầu nào.

Điểm mới của DALL·E 3 là nó hiểu ngữ cảnh tốt hơn nhiều so với DALL·E 2. Các phiên bản trước đó có thể đã bỏ sót một số chi tiết cụ thể hoặc bỏ qua một số chi tiết chỗ này chỗ kia, nhưng DALL·E 3 đã đúng. Nó thu thập các chi tiết chính xác về những gì bạn đang yêu cầu, mang lại cho bạn một bức tranh gần với những gì bạn tưởng tượng hơn.

Phần thú vị? DALL·E 3 và ChatGPT hiện đã được tích hợp với nhau. Họ làm việc cùng nhau để giúp tinh chỉnh ý tưởng của bạn. Bạn quay một ý tưởng, ChatGPT giúp tinh chỉnh lời nhắc và DALL·E 3 biến nó thành hiện thực. Nếu không thích hình ảnh, bạn có thể yêu cầu ChatGPT chỉnh sửa lời nhắc và yêu cầu DALL·E 3 thử lại. Với khoản phí hàng tháng là 20$, bạn có quyền truy cập vào GPT-4, DALL·E 3 và nhiều tính năng thú vị khác.

Của Microsoft Trò chuyện trên Bing đã chạm tay vào DALL·E 3 ngay cả trước khi ChatGPT của OpenAI ra mắt và giờ đây không chỉ các doanh nghiệp lớn mà tất cả mọi người đều có thể sử dụng nó miễn phí. Việc tích hợp vào Bing Chat và Bing Image Creator giúp mọi người sử dụng dễ dàng hơn nhiều.

Sự trỗi dậy của các mô hình khuếch tán

Trong 3 năm qua, AI thị giác đã chứng kiến ​​sự trỗi dậy của các mô hình khuếch tán, có bước tiến vượt bậc, đặc biệt là trong việc tạo ra hình ảnh. Trước các mô hình khuếch tán, Mạng đối thủ chung (GAN) là công nghệ tiên tiến để tạo ra hình ảnh chân thực.

GAN

GAN

Tuy nhiên, họ gặp phải những thách thức, bao gồm nhu cầu về lượng dữ liệu khổng lồ và sức mạnh tính toán, điều này thường khiến họ khó xử lý.

đăng ký hạng mục thi phát sóng các mô hình. Chúng nổi lên như một giải pháp thay thế ổn định và hiệu quả hơn cho GAN. Không giống như GAN, các mô hình khuếch tán hoạt động bằng cách thêm nhiễu vào dữ liệu, che khuất dữ liệu cho đến khi chỉ còn lại tính ngẫu nhiên. Sau đó, chúng hoạt động ngược lại để đảo ngược quá trình này, tái tạo lại dữ liệu có ý nghĩa từ nhiễu. Quá trình này đã được chứng minh là hiệu quả và ít tốn tài nguyên hơn, khiến các mô hình phổ biến trở thành chủ đề nóng trong cộng đồng AI.

Bước ngoặt thực sự đến vào khoảng năm 2020, với hàng loạt bài báo mang tính đổi mới và sự ra đời của CLIP của OpenAI công nghệ giúp nâng cao đáng kể khả năng của các mô hình khuếch tán. Điều này làm cho các mô hình khuếch tán có khả năng tổng hợp văn bản thành hình ảnh cực kỳ tốt, cho phép chúng tạo ra hình ảnh thực tế từ các mô tả văn bản. Những bước đột phá này không chỉ ở lĩnh vực tạo hình ảnh mà còn ở các lĩnh vực như sáng tác nhạcnghiên cứu y sinh.

Ngày nay, các mô hình phổ biến không chỉ là một chủ đề được quan tâm trong học thuật mà còn được sử dụng trong các tình huống thực tế, thực tế.

Các lớp mô hình hóa sáng tạo và tự chú ý: DALL-E 3

Một trong những tiến bộ quan trọng trong lĩnh vực này là sự phát triển của mô hình tổng quát, với các phương pháp tiếp cận dựa trên lấy mẫu như mô hình tổng quát tự hồi quy và các quá trình khuếch tán đang dẫn đầu. Họ đã chuyển đổi mô hình chuyển văn bản thành hình ảnh, dẫn đến cải thiện hiệu suất mạnh mẽ. Bằng cách chia việc tạo hình ảnh thành các bước riêng biệt, các mô hình này đã trở nên dễ điều khiển hơn và dễ dàng hơn cho các mạng thần kinh học hỏi.

Song song đó, việc sử dụng các lớp tự chú ý đã đóng một vai trò quan trọng. Các lớp này, xếp chồng lên nhau, đã giúp tạo ra hình ảnh mà không cần đến các sai lệch không gian tiềm ẩn, một vấn đề thường gặp với tích chập. Sự thay đổi này đã cho phép các mô hình chuyển văn bản thành hình ảnh có thể mở rộng và cải thiện một cách đáng tin cậy nhờ các đặc tính chia tỷ lệ được hiểu rõ của máy biến áp.

Những thách thức và giải pháp trong việc tạo hình ảnh

Bất chấp những tiến bộ này, khả năng kiểm soát việc tạo hình ảnh vẫn là một thách thức. Các vấn đề như theo dõi lời nhắc, trong đó mô hình có thể không bám sát vào văn bản đầu vào, đã phổ biến. Để giải quyết vấn đề này, các phương pháp mới như cải thiện chú thích đã được đề xuất, nhằm nâng cao chất lượng của các cặp văn bản và hình ảnh trong tập dữ liệu huấn luyện.

Cải thiện chú thích: Một cách tiếp cận mới

Cải thiện chú thích bao gồm việc tạo chú thích có chất lượng tốt hơn cho hình ảnh, từ đó giúp đào tạo các mô hình chuyển văn bản thành hình ảnh chính xác hơn. Điều này đạt được thông qua một trình tạo chú thích hình ảnh mạnh mẽ, tạo ra các mô tả chi tiết và chính xác về hình ảnh. Bằng cách đào tạo về những chú thích cải tiến này, DALL-E 3 đã có thể đạt được những kết quả đáng chú ý, gần giống với những bức ảnh và tác phẩm nghệ thuật do con người tạo ra.

Đào tạo về dữ liệu tổng hợp

Khái niệm đào tạo về dữ liệu tổng hợp không phải là mới. Tuy nhiên, đóng góp độc đáo ở đây là ở việc tạo ra một hệ thống chú thích hình ảnh mang tính mô tả, mới lạ. Tác động của việc sử dụng chú thích tổng hợp để đào tạo mô hình tổng quát là rất đáng kể, dẫn đến cải thiện khả năng làm theo lời nhắc một cách chính xác của mô hình.

Đánh giá DALL-E 3

Qua nhiều lần đánh giá và so sánh với các model trước đó như DALL-E 2 và Stable Diffusion XL, DALL-E 3 đã chứng tỏ được hiệu năng vượt trội, đặc biệt là trong các tác vụ liên quan đến việc theo dõi nhanh chóng.

So sánh các mô hình chuyển văn bản thành hình ảnh trên các đánh giá khác nhau

So sánh các mô hình chuyển văn bản thành hình ảnh trên các đánh giá khác nhau

Việc sử dụng các đánh giá và điểm chuẩn tự động đã cung cấp bằng chứng rõ ràng về khả năng của nó, củng cố vị thế của nó như một công cụ tạo văn bản thành hình ảnh hiện đại.

DALL-E 3 Lời nhắc và Khả năng

DALL-E 3 cung cấp cách tiếp cận hợp lý và tinh tế hơn để tạo hình ảnh. Khi cuộn qua, bạn sẽ nhận thấy cách DALL-E tạo ra từng hình ảnh, với sự kết hợp giữa độ chính xác và trí tưởng tượng phù hợp với lời nhắc nhất định.

Không giống như phiên bản tiền nhiệm, phiên bản nâng cấp này vượt trội trong việc sắp xếp các đồ vật một cách tự nhiên trong một khung cảnh và khắc họa chính xác các đặc điểm của con người, đến đúng số ngón tay trên bàn tay. Các cải tiến mở rộng đến các chi tiết tốt hơn và hiện có sẵn ở độ phân giải cao hơn, đảm bảo đầu ra chân thực và chuyên nghiệp hơn.

Khả năng kết xuất văn bản cũng đã được cải thiện đáng kể. Trong khi các phiên bản trước của DALL-E tạo ra văn bản vô nghĩa, DALL-E 3 giờ đây có thể tạo ra các chữ cái dễ đọc và có kiểu dáng chuyên nghiệp (đôi khi) và thậm chí đôi khi còn có cả logo rõ ràng.

Sự hiểu biết của mô hình về các yêu cầu hình ảnh phức tạp và nhiều sắc thái đã được nâng cao đáng kể. DALL-E 3 giờ đây có thể làm theo chính xác các mô tả chi tiết, ngay cả trong các tình huống có nhiều yếu tố và hướng dẫn cụ thể, thể hiện khả năng tạo ra hình ảnh mạch lạc và có bố cục tốt. Hãy cùng khám phá một số lời nhắc và kết quả đầu ra tương ứng mà chúng tôi nhận được:

Design the packaging for a line of organic teas. Include space for the product name and description.

Hình ảnh DALL-E 3 dựa trên lời nhắc văn bản

Hình ảnh DALL-E 3 dựa trên lời nhắc của văn bản (Lưu ý rằng poster bên trái viết sai chính tả)

Create a web banner advertising a summer sale on outdoor furniture. The image feature a beach setting with different pieces of outdoor furniture, and text announcing 'Huge Summer Savings!'

Hình ảnh DALL-E 3 dựa trên lời nhắc văn bản

Hình ảnh DALL-E 3 dựa trên lời nhắc văn bản

A vintage travel poster of Paris with bold and stylized text saying 'Visit Paris' at the bottom.

Hình ảnh DALL-E 3 dựa trên lời nhắc văn bản

Hình ảnh DALL-E 3 dựa trên lời nhắc bằng văn bản (Lưu ý rằng cả hai áp phích đều sai chính tả)

A bustling scene of the Diwali festival in India, with families lighting lamps, fireworks in the sky, and traditional sweets and decorations.
Hình ảnh DALL-E 3 dựa trên lời nhắc văn bản

Hình ảnh DALL-E 3 dựa trên lời nhắc văn bản

A detailed marketplace in ancient Rome, with people in period-appropriate clothing, various goods for sale, and architecture of the time.
Hình ảnh DALL-E 3 dựa trên lời nhắc văn bản

Hình ảnh DALL-E 3 dựa trên lời nhắc văn bản

Generate an image of a famous historical figure, like Cleopatra or Leonardo da Vinci, placed in a contemporary setting, using modern technology like smartphones or laptops.
Hình ảnh DALL-E 3 dựa trên lời nhắc văn bản

Hình ảnh DALL-E 3 dựa trên lời nhắc văn bản

Hạn chế và rủi ro của DALL-E 3

OpenAI đã thực hiện các bước quan trọng để lọc nội dung rõ ràng khỏi dữ liệu đào tạo của DALL-E 3, nhằm giảm sai lệch và cải thiện đầu ra của mô hình. Điều này bao gồm việc áp dụng các bộ lọc cụ thể cho các danh mục nội dung nhạy cảm và sửa đổi các ngưỡng cho các bộ lọc rộng hơn. Ngăn xếp giảm thiểu cũng bao gồm một số lớp bảo vệ, chẳng hạn như cơ chế từ chối trong ChatGPT đối với các chủ đề nhạy cảm, bộ phân loại đầu vào nhắc nhở để ngăn chặn vi phạm chính sách, danh sách chặn cho các danh mục nội dung cụ thể và các chuyển đổi để đảm bảo lời nhắc phù hợp với nguyên tắc.

Bất chấp những tiến bộ của nó, DALL-E 3 vẫn có những hạn chế trong việc hiểu các mối quan hệ không gian, hiển thị văn bản dài một cách chính xác và tạo ra hình ảnh cụ thể. OpenAI thừa nhận những thách thức này và đang nỗ lực cải tiến cho các phiên bản trong tương lai.

Công ty cũng đang tìm cách phân biệt hình ảnh do AI tạo ra với hình ảnh do con người tạo ra, phản ánh cam kết của họ về tính minh bạch và sử dụng AI có trách nhiệm.

DALL · E

DALL · E 3

DALL-E 3, phiên bản mới nhất, sẽ có sẵn theo từng giai đoạn bắt đầu với các nhóm khách hàng cụ thể và sau đó mở rộng sang các phòng thí nghiệm nghiên cứu và dịch vụ API. Tuy nhiên, ngày phát hành công khai miễn phí vẫn chưa được xác nhận.

OpenAI thực sự đang thiết lập một tiêu chuẩn mới trong lĩnh vực AI với DALL-E 3, kết nối liền mạch các khả năng kỹ thuật phức tạp và giao diện thân thiện với người dùng. Việc tích hợp DALL-E 3 vào các nền tảng được sử dụng rộng rãi như Bing phản ánh sự chuyển đổi từ các ứng dụng chuyên biệt sang các hình thức giải trí và tiện ích rộng hơn, dễ tiếp cận hơn.

Yếu tố thay đổi cuộc chơi thực sự trong những năm tới có thể sẽ là sự cân bằng giữa đổi mới và trao quyền cho người dùng. Các công ty phát triển mạnh sẽ là những công ty không chỉ vượt qua ranh giới của những gì AI có thể đạt được mà còn cung cấp cho người dùng quyền tự chủ và quyền kiểm soát mà họ mong muốn. OpenAI, với cam kết về AI có đạo đức, đang điều hướng con đường này một cách cẩn thận. Mục tiêu rất rõ ràng: tạo ra các công cụ AI không chỉ mạnh mẽ mà còn đáng tin cậy và toàn diện, đảm bảo rằng tất cả mọi người đều có thể tiếp cận được lợi ích của AI.

Tôi đã dành 50 năm qua để đắm mình trong thế giới hấp dẫn của Học máy và Học sâu. Niềm đam mê và chuyên môn của tôi đã giúp tôi đóng góp cho hơn XNUMX dự án kỹ thuật phần mềm đa dạng, đặc biệt tập trung vào AI/ML. Sự tò mò không ngừng của tôi cũng đã lôi kéo tôi đến với Xử lý ngôn ngữ tự nhiên, một lĩnh vực mà tôi háo hức khám phá thêm.