Chỉ cần xem một đoạn video 2D, AI mới của Facebook có thể biến nó thành hình ảnh 3D

23/08/2020 11:28

Thuật toán nay có thể xem một đoạn video bình thường, và trong quá trình đó, nó sẽ tìm ra cách để biến video thành một khung cảnh 3D hoàn chỉnh theo từng khung hình.

"Đánh tôi đi", Morpheus nói. "Nếu anh có thể." Neo liền nạp một chương trình võ thuật và tung ra một loạt các chiêu thức về phía người thầy của mình. Morpheus chặn được mọi nỗ lực tấn công mà không mất chút sức lực. Khung cảnh này chính là màn huấn luyện được trích từ phim Ma Trận năm 1999, một bộ phim khiến bao người sững sờ vào thời đó khi kết hợp cốt truyện tập trung vào trí tuệ nhân tạo (AI) với đồ hoạ máy tính tiên tiến.

Hơn 20 năm sau, khung cảnh đó được Facebook sử dụng làm demo biểu diễn công nghệ nhận dạng hình ảnh AI đột phá của họ. Trên màn hình, khung cảnh này vẫn diễn ra như bình thường. Gần như bình thường thì đúng hơn. Trong khi Morpheus và hậu cảnh không hề thay đổi, đoạn phim 2D có mặt Keanu Reeve đã được biến đổi thành một mô hình 3D. Dù bản demo này chỉ được dựng một cách sơ sài, Andrea Vedaldi, một trong những chuyên gia về AI của Facebook (cụ thể là thị giác máy tính và học máy), cho biết khung cảnh 3D biến đổi từ 2D kia có thể được dựng hình trong thời gian thực.

Điều đó có nghĩa là các thuật toán AI của Facebook có thể xem một video thông thường, và khi video đang chiếu, AI có thể tìm ra cách để biến nó thành một khung cảnh 3D hoàn chỉnh, theo từng khung hình. Demo lấy từ phim Ma Trận có thể được xem là một ví dụ đặc biệt ấn tượng của thuật toán, bởi những thế võ kung-fu dù đẹp mắt nhưng vẫn cực kỳ khó xử lý kể cả với con người, chứ chưa nói là một cỗ máy chỉ biết ngoại suy. Kết quả thu được chưa hoàn hảo, nhưng khá tốt đấy chứ!

Chỉ cần xem một đoạn video 2D, AI mới của Facebook có thể biến nó thành hình ảnh 3D - Ảnh 1.

"Đây là một video rất, rất thử thách bởi nó cho bạn thấy những tư thế võ thuật" - Vedaldi nói. "Đây không phải là thứ bạn thường thấy trong một ứng dụng người dùng. Nó được thực hiện cho vui, chỉ để biểu diễn khả năng của hệ thống mà thôi".

Trước một tác vụ đơn giản hơn - ví dụ, biến một video cậu nhóc nhà bạn đang đá banh thành các mô hình khung dây hay làm điều tương tự với một bức ảnh tĩnh chụp khi đi du lịch - thuật toán của Facebook trở nên lão luyện hơn nhiều. Và nó cũng dần tốt hơn theo thời gian.

Trích xuất dữ liệu từ hình ảnh

Việc Facebook tập trung nghiên cứu về thuật toán như trên mới nghe qua có vẻ khá kỳ lạ. Lẽ ra họ nên cải thiện thuật toán news feed chứ? Hoặc tìm ra những cách mới mẻ để đề xuất các nhãn hiệu hoặc nội dung mà có thể bạn sẽ hứng thú muốn tương tác? Nhưng tại sao lại là biến ảnh 2D thành 3D? Rõ ràng đây không phải là loại nghiên cứu mà bạn có thể nghĩ một gã khổng lồ truyền thông xã hội sẽ đầu tư. Nhưng đúng là vậy - kể cả khi chẳng hề có kế hoạch nào nhằm biến nghiên cứu này thành một tính năng trên giao diện người dùng của Facebook.

Trên thực tế, trong 7 năm qua, Facebook đã là một trong những cái tên hàng đầu trong lĩnh vực trí tuệ nhân tạo. Năm 2013, Yann LeCun, một trong những chuyên gia đầu ngành về học sâu trên thế giới, đã gia nhập Facebook để nghiên cứu AI trên một quy mô mà hầu như không thể đạt được tại 99% số phòng thí nghiệm AI toàn cầu. Kể từ đó, Facebook đã mở rộng bộ phận AI của hãng - gọi là FAIR (Facebook AI Research) - ra toàn thế giới. Ngày nay, hãng có 300 kỹ sư và nhà khoa học toàn thời gian đang tích cực làm việc với mục tiêu đưa ra được những công nghệ trí tuệ nhân tạo hấp dẫn của tương lai. Các văn phòng của FAIR được đặt tại Seattle, Pittsburgh, Montreal, Boston, London, và Tel Aviv, Israel - với đội ngũ nhân viên gồm toàn những nhà nghiên cứu hàng đầu trong lĩnh vực này.

Tim ra phương pháp để hiểu rõ hơn nội dung các bức ảnh là một trọng tâm lớn đối với Facebook. Kể từ năm 2017, Facebook đã sử dụng các mạng thần kinh nhân tạo để tự động tag tên người dùng trong các bức ảnh, kể cả khi họ không được người khác tag. Từ đó đến nay, công nghệ nhận dạng hình ảnh của gã khổng lồ truyền thông xã hội đã trở nên tinh vi hơn rất nhiều.

Chỉ cần xem một đoạn video 2D, AI mới của Facebook có thể biến nó thành hình ảnh 3D - Ảnh 2.

Trớ trêu thay, một trong những tình huống gần đây nhất mà công nghệ này lộ diện trước mắt người dùng là khi Facebook gặp vấn đề. Vào tháng 7/2019, một đợt mất điện tạm thời đã khiến nhiều ảnh không hiển thị trên Facebook. Tại vị trí của chúng là các khung ảnh, đi kèm với những tag do học máy tạo ra miêu tả suy nghĩ của AI về những thứ có trong ảnh. Một số tag ghi rằng: "Ảnh có thể chứa: cây, bầu trời, ngoài trời, tự nhiên, mèo, người đang đứng". Giống hệt như phim Ma Trận, cảnh cuối cùng trong phần 1, khi Neo đạt được cảnh giới mới, có thể thấy được thế giới dưới dạng những dòng mã chạy liên tục không ngừng nghỉ!

Facebook hiện đã tiến thêm được một bước mới. Theo một slide đi kèm với đoạn demo Ma Trận của Facebook nói trên thì: "Chúng tôi muốn hiểu mọi thứ dưới dạng 3D, ngay lần đầu nhìn thấy." Tất nhiên không chỉ nhận biết con người, mà "Chúng tôi thực sự muốn AI có thể hiểu được thế giới như chúng ta vậy" - Vedaldi nói.

Chỉ cần xem một đoạn video 2D, AI mới của Facebook có thể biến nó thành hình ảnh 3D - Ảnh 3.

Điều đó có nghĩa là Facebook muốn khi cho AI của họ bức ảnh một chiếc máy bay, nó sẽ có thể nhận biết đó là một chiếc máy bay, hiểu được hình dáng của nó trong không gian 3D, và dự đoán nó sẽ di chuyển ra sao. Điều tương tự cũng diễn ra với một cái ghế. Một chú chim. Một chiếc xe. Hay một người đang tập yoga.

Liệu công nghệ này có được mang lên một ứng dụng bạn thường dùng?

Không đâu. Demo này sẽ không hiện diện như một tính năng Facebook trong tương lai gần, nhưng huấn luyện AI hiểu thế giới thông qua các hình ảnh mà nó thấy rõ ràng là một điều Facebook đang thực hiện trong mô hình kinh doanh tổng thể của họ. Từ khi Facebook được hình thành đến nay, đã có hơn 250 tỷ bức ảnh được đăng tải lên nền tảng, tức xấp xỉ 350 triệu ảnh mỗi ngày. Facebook còn sở hữu Instagram, có xấp xỉ 40 tỷ ảnh và video được đăng tải từ khi thành hình, và 95 triệu ảnh được đăng tải mỗi ngày.

Là một trong những cách chính để mọi người giao tiếp với nhau trên internet, hiểu được điều gì đang diễn ra trong những bức ảnh sẽ mang lại giá trị to lớn - theo nhiều khía cạnh khác nhau - cho sứ mệnh của Faecbook. Hiểu và tương tác được với các hình ảnh trong môi trường 3D cũng sẽ cho phép Facebook phát triển mạnh mẽ hơn các công nghệ mới như AR. Hãy hình dung một ứng dụng AR có khả năng biến các bức ảnh Facebook 2D của bạn từ nhiều năm trước thành ảnh 3D, và cho phép bạn khám phá lại khung cảnh đó trong AR mà xem. Liệu Facebook có tạo ra một thứ như vậy? Không chắc, nhưng công nghệ để tạo ra điều đó - và rất nhiều thứ khác nữa - đã có rồi.

"Hướng nghiên cứu của chúng tôi là khá nhất quán với các ưu tiên của công ty" - Natalia Neverova, trưởng nhóm nghiên cứu tại FAIR Paris nói. "Chúng tôi kỳ vọng ít nhất một lượng lớn trong số các nghiên cứu sẽ được ứng dụng vào các sản phẩm. Nhưng tôi không thể nói thời gian hay ứng dụng cụ thể".