Tại sao bàn tay do AI tạo ra là thứ của những cơn ác mộng, được giải thích bởi một nhà khoa học

Header S 0979256

Năm nay, trí tuệ nhân tạo đã giành chiến thắng trong các cuộc thi nghệ thuật, thống trị internet, vượt qua các kỳ thi luật và chứng minh rằng đó là công nghệ của tương lai… nhưng nó vẫn không thể ra tay một cách chính xác.

Bất chấp tất cả công việc đã được đưa vào trình tạo hình ảnh AI, bàn tay đã trở thành kẻ thù không đội trời chung của chúng, phô bày những điểm yếu trong mô hình.
Trong khi đây là một vấn đề đáng chú ý từ sự gia tăng của Dall-E 2 và tất cả các đối thủ cạnh tranh tiếp theo của nó, vấn đề đã trở thành tâm điểm chú ý với bộ sưu tập hình ảnh của người dùng Twitter do trình tạo AI tạo ra giữa hành trình.
Nhìn thoáng qua, chúng rất ấn tượng, tạo nên một nhóm người trông giống người thật tại một bữa tiệc. Chưa hết, trong một bức ảnh có người có ba tay, người có bảy ngón tay và một vô cùng lòng bàn tay dài và hình ảnh cuối cùng cho thấy ai đó với ngón tay ngược đang lướt qua điện thoại
Vậy tại sao một trở ngại nhỏ như vậy lại gây ra một bánh răng trong máy? Giáo sư cho biết: “Đây là những trình tạo hình ảnh 2D hoàn toàn không có khái niệm về hình học ba chiều của một thứ gì đó giống như bàn tay. Peter Bentleymột nhà khoa học máy tính và tác giả có trụ sở tại Đại học College London
“Họ đã nắm được ý tưởng chung về một bàn tay. Nó có lòng bàn tay, ngón tay và móng tay nhưng không có mô hình nào trong số này thực sự hiểu toàn bộ sự vật là gì.”
Dall-E 2 cố gắng tạo lại bàn tay © Dall-E 2
Dall-E 2 cố gắng tạo lại bàn tay © Dall-E 2

Nếu bạn chỉ đang cố gắng để có được một hình ảnh rất chung chung về một bàn tay, thì đây không phải là vấn đề quá lớn. Vấn đề là ngay khi bạn đưa ra bối cảnh mô hình. Nếu nó không thể hiểu bản chất 3D của một bàn tay hoặc bối cảnh của một tình huống, nó sẽ gặp khó khăn trong việc tái tạo chính xác nó.

Ví dụ: một bàn tay đang cầm một vật thể như con dao hoặc máy ảnh hoặc ai đó đang tạo biểu tượng bằng tay của họ sẽ ngay lập tức gây nhầm lẫn cho một mô hình không có hiểu biết 3D về bàn tay hoặc hình dạng hình học của vật thể mà nó đang cầm .

“Tôi đã yêu cầu Dall-E cho xem một bức ảnh chụp hai bàn tay đan vào nhau và tôi nhận được một số kết quả kỳ lạ. Nó cho tôi thấy hai cổ tay và một ngón tay của một trong số họ,” Bentley nói.

“Nhưng bạn có thể hiểu tại sao. Nó không thực sự biết nó đang làm gì, và nó chỉ đang kết hợp tất cả những hình ảnh mà nó đã thấy để đáp ứng mô tả văn bản của bạn một cách tốt nhất có thể.”

Tuy nhiên, không chỉ Dall-E 2 gặp khó khăn với điều này. Các mô hình hình ảnh phổ biến khác như Midjourney và khuếch tán ổn định đã bị đánh với cùng một nhiệm vụ bất khả thi là tạo ra một bàn tay trông bình thường.

Nhìn kỹ hơn vào bức tranh

Mặc dù người ta thường có cảm giác những hình ảnh mà các mô hình này tạo ra gần như hoàn hảo, nhưng thực ra chúng thường rất thiếu sót. Bạn càng xem xét kỹ, bạn càng có nhiều khả năng phát hiện ra nhiều chi tiết không chính xác.

Midjourney thường xuyên nghiêng về phía bàn tay khủng long © Midjourney
Midjourney thường xuyên nghiêng về phía bàn tay khủng long © Midjourney

Một phần của điều này phụ thuộc vào người dùng và sức mạnh của lời nhắc mà họ sử dụng, với một số người nhận được hình ảnh gần như hoàn hảo từ lời nhắc chi tiết của họ. Nhưng trên thực tế, đây chủ yếu là một vấn đề trong chính các mô hình.

Hơn như thế này

“Khi bạn thực sự quan sát kỹ, có một tín hiệu mách bảo ở đâu đó rằng các định luật vật lý đang bị phá vỡ bằng cách nào đó. Có thể có một cánh tay xuyên qua bụng ai đó, hoặc một con bạch tuộc có quá nhiều xúc tu, hoặc một cái cây đang lơ lửng trên mặt đất,” Bentley nói.

“Bởi vì họ vừa được cung cấp rất nhiều ví dụ về mọi thứ, nên nó đang cố gắng ghép tất cả lại với nhau một cách tốt nhất có thể.”

Điều này đôi khi có thể dẫn đến một số kết quả kỳ lạ, thường mang lại cảm giác mơ màng tương tự như một bức tranh của Salvador Dali.

“Những mô hình này khác xa với thực tế, chúng không có bất kỳ bối cảnh nào và chúng thực sự không có bất kỳ kiến ​​thức hay khả năng nào để xem xét bối cảnh của một hình ảnh. Họ chỉ kết hợp tất cả những thứ linh tinh mà chúng tôi đã cung cấp cho nó.

%200
Các ngón tay thường biến hình cùng nhau trong những hình ảnh này © Dall-E 2

Rào cản lớn đối với hình ảnh AI

Vì vậy, những mô hình này là tốt, thậm chí tuyệt vời… nhưng chúng vẫn còn một chặng đường dài để tạo ra những hình ảnh hoàn hảo. Điều gì sẽ xảy ra để giải quyết vấn đề này và cuối cùng là tạo ra một bàn tay trông không giống như được lấy cảm hứng từ David Cronenberg?

“Tất cả điều này có thể thay đổi trong tương lai. Các mạng này đang dần được đào tạo về hình học 3D để chúng có thể hiểu được hình dạng đằng sau hình ảnh. Điều này sẽ mang lại cho chúng tôi hình ảnh mạch lạc hơn, ngay cả với những lời nhắc phức tạp,” Bently nói.

“Việc lấy đủ dữ liệu thiết kế 3D có thể mất thời gian. Hiện tại, chúng tôi đang nhận được kết quả dễ dàng ở dạng những hình ảnh 2D này. Thật dễ dàng để truy cập internet và có được hàng triệu hình ảnh mà không cần bối cảnh.”

Đây là thứ mà OpenAI đang bắt đầu làm việc với nó Điểm-E công nghệ, tạo ra một hệ thống có thể tạo mô hình 3D từ lời nhắc bằng văn bản. Mặc dù công chúng hiện có thể sử dụng được, nhưng còn lâu mới có kết quả chính xác.

Tuy nhiên, khi có kết quả, chúng có thể dẫn đến các kết xuất 3D có độ chi tiết cao và thậm chí cả thế giới kỹ thuật số. Như Bentley giải thích: “Rất nhiều tiền đổ vào những thứ như nghịch đảo quan tâm đến các mô hình 3D. Vì vậy, hoàn toàn có thể với các ngân sách kết hợp này, chúng ta có thể thấy các mô hình 3D ngày càng ấn tượng do AI tạo ra.”

Đây là công nghệ có thể tiếp tục cải tiến thành những thứ lớn hơn và ấn tượng hơn. Ngay bây giờ chúng tôi đang xem xét các hình ảnh 2D được tạo ra từ AI, tương lai có thể là các kết xuất 3D có độ chi tiết cao và thậm chí cả thế giới kỹ thuật số.
Peter là một nhà khoa học máy tính và tác giả làm việc tại Đại học College London. Ông là tác giả của những cuốn sách bao gồm 10 bài học ngắn về trí tuệ nhân tạo và người máySinh học kỹ thuật số.

 

Trả lời

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *