D4RT: Dạy AI nhìn thế giới trong bốn chiều

D4RT: Unified, Fast 4D Scene Reconstruction & Tracking — Google DeepMind

D4RT: Teaching AI to see the world in four dimensions

EN | D4RT: Teaching AI to see the world in four dimensions VI | D4RT: Dạy AI nhìn thế giới trong bốn chiều KO | D4RT: AI에게 4차원으로 세상을 보는 법을 가르치다

EN | Introducing D4RT, a unified AI model for 4D scene reconstruction and tracking across space and time. VI | Giới thiệu D4RT — mô hình AI thống nhất cho tái tạo và theo dõi cảnh 4D xuyên suốt không gian và thời gian. KO | 공간과 시간을 아우르는 4D 장면 재구성 및 추적을 위한 통합 AI 모델, D4RT를 소개합니다.

EN | Anytime we look at the world, we perform an extraordinary feat of memory and prediction. VI | Mỗi khi nhìn vào thế giới, chúng ta thực hiện một kỳ tích phi thường của trí nhớ và dự đoán. KO | 우리가 세상을 바라볼 때마다, 우리는 기억과 예측이라는 놀라운 능력을 발휘합니다.

EN | We see and understand things as they are at a given moment in time, as they were a moment ago, and how they are going to be in the moment to follow. VI | Chúng ta thấy và hiểu sự vật như chúng đang tồn tại ở thời điểm hiện tại, như chúng đã từng ở khoảnh khắc trước, và như chúng sẽ là trong khoảnh khắc tiếp theo. KO | 우리는 사물이 지금 이 순간 어떤 상태인지, 방금 전에는 어떠했는지, 그리고 다음 순간에는 어떻게 될지를 보고 이해합니다.

EN | Our mental model of the world maintains a persistent representation of reality and we use that model to draw intuitive conclusions about the causal relationship between the past, present and future. VI | Mô hình tư duy của chúng ta về thế giới duy trì một biểu diễn thực tại bền vững, và chúng ta dùng mô hình đó để rút ra những kết luận trực giác về mối quan hệ nhân quả giữa quá khứ, hiện tại và tương lai. KO | 우리의 세계 정신 모델은 현실에 대한 지속적인 표상을 유지하며, 우리는 그 모델을 통해 과거·현재·미래의 인과 관계에 대한 직관적 결론을 이끌어냅니다.

EN | To help machines see the world more like we do, we can equip them with cameras, but that only solves the problem of input. VI | Để giúp máy móc nhìn thế giới giống chúng ta hơn, ta có thể trang bị cho chúng camera — nhưng điều đó chỉ giải quyết được vấn đề đầu vào. KO | 기계가 우리처럼 세상을 볼 수 있도록 카메라를 장착할 수 있지만, 그것은 입력 문제만 해결할 뿐입니다.

EN | To make sense of this input, computers must solve a complex, inverse problem: taking a video — which is a sequence of flat 2D projections — and recovering or understanding the rich, volumetric 3D world, in motion. VI | Để xử lý đầu vào này, máy tính phải giải một bài toán ngược phức tạp: lấy một video — vốn là chuỗi các hình chiếu 2D phẳng — rồi phục dựng hoặc hiểu thế giới 3D phong phú, có chiều sâu đang chuyển động. KO | 이 입력을 이해하려면 컴퓨터는 복잡한 역문제를 풀어야 합니다. 즉, 평면적인 2D 투영의 연속인 영상에서 풍부하고 입체적인 3D 세계를 움직임과 함께 복원하거나 이해하는 것입니다.

EN | Today, we are introducing D4RT (Dynamic 4D Reconstruction and Tracking), a new AI model that unifies dynamic scene reconstruction into a single, efficient framework, bringing us closer to the next frontier of artificial intelligence: total perception of our dynamic reality. VI | Hôm nay, chúng tôi giới thiệu D4RT (Tái tạo và Theo dõi 4D Động), một mô hình AI mới hợp nhất tái tạo cảnh động vào một framework duy nhất và hiệu quả, đưa chúng ta đến gần hơn với biên giới tiếp theo của trí tuệ nhân tạo: nhận thức toàn diện về thực tại động. KO | 오늘, 저희는 동적 장면 재구성을 하나의 효율적인 프레임워크로 통합하는 새로운 AI 모델 D4RT(Dynamic 4D Reconstruction and Tracking)를 소개합니다. 이는 인공지능의 다음 개척지인 동적 현실의 완전한 인식에 한 걸음 더 다가서는 것입니다.

The Challenge of the Fourth Dimension

EN | In order for it to understand a dynamic scene captured on a 2D video, an AI model must track every pixel of every object as it moves through the three dimensions of space and the fourth dimension of time. VI | Để hiểu một cảnh động được ghi lại trên video 2D, một mô hình AI phải theo dõi từng pixel của từng vật thể khi chúng di chuyển qua ba chiều không gian và chiều thứ tư là thời gian. KO | 2D 영상에 담긴 동적 장면을 이해하려면, AI 모델은 모든 물체의 모든 픽셀이 공간의 3차원과 시간이라는 4번째 차원을 이동하는 과정을 추적해야 합니다.

EN | In addition, it must disentangle this motion from the motion of the camera, maintaining a coherent representation even when objects move behind one another or leave the frame entirely. VI | Ngoài ra, mô hình phải tách biệt chuyển động này khỏi chuyển động của camera, duy trì biểu diễn nhất quán ngay cả khi các vật thể khuất sau nhau hoặc rời khỏi khung hình hoàn toàn. KO | 또한 카메라의 움직임과 피사체의 움직임을 분리하여, 물체가 서로 뒤에 가려지거나 프레임 밖으로 완전히 벗어나는 경우에도 일관된 표상을 유지해야 합니다.

EN | Traditionally, capturing this level of geometry and motion from 2D videos requires computationally intensive processes or a patchwork of specialized AI models — some for depth, others for movement or camera angles — resulting in AI reconstructions that are slow and fragmented. VI | Theo truyền thống, việc nắm bắt mức độ hình học và chuyển động này từ video 2D đòi hỏi các quy trình tính toán cường độ cao hoặc một mảnh ghép của các mô hình AI chuyên biệt — một số cho độ sâu, số khác cho chuyển động hay góc camera — dẫn đến các tái tạo AI chậm chạp và rời rạc. KO | 기존에는 2D 영상에서 이 수준의 기하학적 정보와 움직임을 포착하려면 연산 집약적인 처리 과정이 필요하거나, 깊이·움직임·카메라 각도 등을 각각 담당하는 전문 AI 모델들을 짜깁기해야 했습니다. 그 결과 AI 재구성은 느리고 단편적일 수밖에 없었습니다.

EN | D4RT's simplified architecture and novel query mechanism place it at the forefront of 4D reconstruction while being up to 300x more efficient than previous methods — fast enough for real-time applications in robotics, augmented reality, and more. VI | Kiến trúc đơn giản hóa và cơ chế truy vấn mới của D4RT đặt nó ở vị trí tiên phong trong tái tạo 4D, đồng thời hiệu quả hơn các phương pháp trước đến 300 lần — đủ nhanh cho các ứng dụng thời gian thực trong robot học, thực tế tăng cường và nhiều hơn nữa. KO | D4RT의 간소화된 아키텍처와 새로운 쿼리 메커니즘은 기존 방법보다 최대 300배 효율적이면서도 4D 재구성의 최전선에 위치합니다. 이는 로보틱스, 증강현실 등 실시간 응용에 충분히 빠른 속도입니다.

How D4RT Works: A Query-Based Approach

EN | D4RT operates as a unified encoder-decoder Transformer architecture. VI | D4RT hoạt động như một kiến trúc Transformer mã hóa-giải mã thống nhất. KO | D4RT는 통합된 인코더-디코더 Transformer 아키텍처로 작동합니다.

EN | The encoder first processes the input video into a compressed representation of the scene's geometry and motion. VI | Bộ mã hóa trước tiên xử lý video đầu vào thành một biểu diễn nén của hình học và chuyển động của cảnh. KO | 인코더는 먼저 입력 영상을 장면의 기하학적 구조와 움직임에 대한 압축된 표상으로 변환합니다.

EN | Unlike older systems that employed separate modules for different tasks, D4RT calculates only what it needs using a flexible querying mechanism centered around a single, fundamental question: VI | Khác với các hệ thống cũ sử dụng các mô-đun riêng biệt cho từng nhiệm vụ, D4RT chỉ tính toán những gì cần thiết thông qua cơ chế truy vấn linh hoạt xoay quanh một câu hỏi cơ bản duy nhất: KO | 서로 다른 작업에 별도 모듈을 사용하던 기존 시스템과 달리, D4RT는 하나의 핵심 질문을 중심으로 한 유연한 쿼리 메커니즘을 통해 필요한 것만 계산합니다:

EN | "Where is a given pixel from the video located in 3D space at an arbitrary time, as viewed from a chosen camera?" VI | "Một pixel nhất định từ video nằm ở đâu trong không gian 3D tại một thời điểm tùy ý, khi nhìn từ một camera được chọn?" KO | "선택한 카메라에서 바라볼 때, 영상의 특정 픽셀은 임의의 시점에 3D 공간의 어디에 위치하는가?"

EN | Building on our prior work, a lightweight decoder then queries this representation to answer specific instances of the posed question. VI | Dựa trên công trình trước đó của chúng tôi, một bộ giải mã nhẹ sau đó truy vấn biểu diễn này để trả lời các trường hợp cụ thể của câu hỏi đã đặt ra. KO | 이전 연구를 기반으로, 경량 디코더가 이 표상에 쿼리를 보내 해당 질문의 구체적인 사례에 답합니다.

EN | Because queries are independent, they can be processed in parallel on modern AI hardware. VI | Vì các truy vấn độc lập với nhau, chúng có thể được xử lý song song trên phần cứng AI hiện đại. KO | 쿼리들은 서로 독립적이기 때문에 현대 AI 하드웨어에서 병렬로 처리할 수 있습니다.

EN | This makes D4RT extremely fast and scalable, whether it's tracking just a few points or reconstructing an entire scene. VI | Điều này khiến D4RT cực kỳ nhanh và có khả năng mở rộng, dù chỉ theo dõi vài điểm hay tái tạo toàn bộ một cảnh. KO | 이로 인해 D4RT는 몇 개의 점을 추적하든 전체 장면을 재구성하든 매우 빠르고 확장 가능합니다.

EN | D4RT combines a powerful encoder that builds a rich, global understanding of the video, and a lightweight decoder that answers thousands of queries in parallel. VI | D4RT kết hợp một bộ mã hóa mạnh mẽ xây dựng sự hiểu biết toàn cục phong phú về video và một bộ giải mã nhẹ trả lời hàng nghìn truy vấn song song. KO | D4RT는 영상에 대한 풍부하고 전체적인 이해를 구축하는 강력한 인코더와, 수천 개의 쿼리에 병렬로 답하는 경량 디코더를 결합합니다.

EN | By asking specific questions — identifying where a source pixel is located at a target time and camera view — the model efficiently solves diverse tasks like tracking, depth estimation, and pose estimation through a single, flexible interface. VI | Bằng cách đặt ra các câu hỏi cụ thể — xác định pixel nguồn nằm ở đâu tại thời điểm mục tiêu và góc nhìn camera — mô hình giải quyết hiệu quả các tác vụ đa dạng như theo dõi, ước tính độ sâu và ước tính tư thế thông qua một giao diện duy nhất, linh hoạt. KO | 특정 질문, 즉 소스 픽셀이 목표 시점과 카메라 뷰에서 어디에 위치하는지를 묻는 방식으로, 모델은 추적·깊이 추정·자세 추정 등 다양한 작업을 하나의 유연한 인터페이스로 효율적으로 해결합니다.

Capabilities: Fast, Accurate 4D Understanding

EN | With this flexible formulation, a wide variety of 4D tasks can now be solved by the model, including: VI | Với công thức linh hoạt này, mô hình hiện có thể giải quyết nhiều loại tác vụ 4D, bao gồm: KO | 이 유연한 공식화를 통해 모델은 이제 다양한 4D 작업을 수행할 수 있습니다:

EN | Point Tracking: By querying a pixel's location across different time steps, D4RT can predict its 3D trajectory. Importantly, an object need not be visible on other frames of the video for the model to make a prediction. VI | Theo dõi điểm: Bằng cách truy vấn vị trí của một pixel qua các bước thời gian khác nhau, D4RT có thể dự đoán quỹ đạo 3D của nó. Điều quan trọng là vật thể không cần phải hiện diện trong các khung hình khác của video để mô hình đưa ra dự đoán. KO | 포인트 추적: 다양한 시간 단계에 걸쳐 픽셀의 위치를 쿼리함으로써, D4RT는 해당 픽셀의 3D 궤적을 예측할 수 있습니다. 중요한 점은, 모델이 예측을 위해 물체가 다른 프레임에 반드시 보일 필요가 없다는 것입니다.

EN | Point Cloud Reconstruction: By freezing time and the camera viewpoint, D4RT can directly generate the complete 3D structure of a scene, eliminating extra steps such as separate camera estimation or per-video iterative optimization. VI | Tái tạo đám mây điểm: Bằng cách cố định thời gian và góc nhìn camera, D4RT có thể trực tiếp tạo ra cấu trúc 3D hoàn chỉnh của một cảnh, loại bỏ các bước phụ như ước tính camera riêng biệt hoặc tối ưu hóa lặp từng video. KO | 포인트 클라우드 재구성: 시간과 카메라 시점을 고정함으로써, D4RT는 별도의 카메라 추정이나 영상별 반복 최적화 같은 추가 단계 없이 장면의 완전한 3D 구조를 직접 생성할 수 있습니다.

EN | Camera Pose Estimation: By generating and aligning 3D snapshots of a single moment from different viewpoints, D4RT can easily recover the camera's trajectory. VI | Ước tính tư thế camera: Bằng cách tạo và căn chỉnh các ảnh chụp 3D của một khoảnh khắc từ các góc nhìn khác nhau, D4RT có thể dễ dàng phục hồi quỹ đạo của camera. KO | 카메라 자세 추정: 서로 다른 시점에서 동일한 순간의 3D 스냅샷을 생성하고 정렬함으로써, D4RT는 카메라의 이동 궤적을 쉽게 복원할 수 있습니다.

EN | D4RT outperforms previous methods across a wide spectrum of 4D reconstruction tasks. Qualitative comparisons show that while other methods struggle with dynamic objects — often duplicating them or failing to reconstruct them entirely — D4RT maintains a solid, continuous understanding of the moving world. VI | D4RT vượt trội hơn các phương pháp trước đây trên nhiều tác vụ tái tạo 4D. So sánh định tính cho thấy trong khi các phương pháp khác gặp khó khăn với các vật thể động — thường nhân đôi chúng hoặc không tái tạo được hoàn toàn — D4RT duy trì sự hiểu biết vững chắc, liên tục về thế giới đang chuyển động. KO | D4RT는 광범위한 4D 재구성 작업에서 기존 방법을 능가합니다. 정성적 비교에 따르면, 다른 방법들이 동적 물체를 종종 복제하거나 전혀 재구성하지 못하는 반면, D4RT는 움직이는 세계에 대한 견고하고 지속적인 이해를 유지합니다.

EN | Crucially, D4RT's precision does not come at the expense of efficiency. In testing, it performed 18x to 300x faster than the previous state of the art. VI | Quan trọng hơn, độ chính xác của D4RT không đánh đổi hiệu quả. Trong kiểm tra, nó thực hiện nhanh hơn 18 đến 300 lần so với các phương pháp tiên tiến trước đây. KO | 결정적으로, D4RT의 정밀도는 효율성을 희생하지 않습니다. 테스트에서 기존 최고 수준 대비 18배에서 300배 빠른 성능을 보였습니다.

EN | For example, D4RT processed a one-minute video in roughly five seconds on a single TPU chip. Previous state-of-the-art methods could take up to ten minutes for the same task — an improvement of 120x. VI | Ví dụ, D4RT xử lý một video dài một phút trong khoảng năm giây trên một chip TPU duy nhất. Các phương pháp tiên tiến trước đây có thể mất đến mười phút cho cùng một tác vụ — cải thiện 120 lần. KO | 예를 들어, D4RT는 단일 TPU 칩에서 1분짜리 영상을 약 5초 만에 처리했습니다. 기존 최고 수준의 방법은 동일한 작업에 최대 10분이 걸렸으며, 이는 120배 향상된 수치입니다.

EN | In evaluations on the MPI Sintel benchmark featuring complex synthetic scenes with fast motion blur and non-rigid deformation, D4RT demonstrates superior fidelity compared to recent strong baselines. VI | Trong các đánh giá trên benchmark MPI Sintel với các cảnh tổng hợp phức tạp có hiện tượng mờ chuyển động nhanh và biến dạng phi cứng, D4RT thể hiện độ trung thực vượt trội so với các baseline mạnh gần đây. KO | 빠른 모션 블러와 비강체 변형이 포함된 복잡한 합성 장면으로 구성된 MPI Sintel 벤치마크 평가에서, D4RT는 최근의 강력한 기준 모델들과 비교해 우월한 충실도를 보였습니다.

EN | This highlights the model's ability to reconstruct geometry accurately even when objects or the camera move rapidly through the scene. VI | Điều này nêu bật khả năng của mô hình trong việc tái tạo hình học chính xác ngay cả khi các vật thể hoặc camera di chuyển nhanh qua cảnh. KO | 이는 물체나 카메라가 장면을 빠르게 이동할 때에도 모델이 정확하게 기하학적 구조를 재구성하는 능력을 보여줍니다.

Downstream Applications

EN | D4RT demonstrates that we don't need to choose between accuracy and efficiency in 4D reconstruction. VI | D4RT chứng minh rằng chúng ta không cần phải chọn giữa độ chính xác và hiệu quả trong tái tạo 4D. KO | D4RT는 4D 재구성에서 정확도와 효율성 중 하나를 선택할 필요가 없음을 증명합니다.

EN | Its flexible, query-based system can capture our dynamic world in real-time, paving the way for the next generation of spatial computing. VI | Hệ thống truy vấn linh hoạt của nó có thể nắm bắt thế giới động của chúng ta theo thời gian thực, mở đường cho thế hệ tiếp theo của điện toán không gian. KO | 유연한 쿼리 기반 시스템은 동적 세계를 실시간으로 포착할 수 있어, 차세대 공간 컴퓨팅의 길을 열어줍니다.

EN | Robotics: Robots need to navigate dynamic environments populated by moving people and objects. D4RT can provide the spatial awareness required for safe navigation and dextrous manipulation. VI | Robot học: Robot cần điều hướng trong các môi trường động có người và vật thể đang di chuyển. D4RT có thể cung cấp nhận thức không gian cần thiết cho việc điều hướng an toàn và thao tác khéo léo. KO | 로보틱스: 로봇은 움직이는 사람과 물체로 가득 찬 동적 환경을 탐색해야 합니다. D4RT는 안전한 탐색과 정교한 조작에 필요한 공간 인식 능력을 제공할 수 있습니다.

EN | Augmented Reality (AR): For AR glasses to overlay digital objects onto the real world, they need an instant, low-latency understanding of a scene's geometry. D4RT's efficiency contributes to making on-device deployment a tangible reality. VI | Thực tế tăng cường (AR): Để kính AR phủ các vật thể kỹ thuật số lên thế giới thực, chúng cần hiểu hình học của cảnh ngay lập tức với độ trễ thấp. Hiệu quả của D4RT góp phần biến việc triển khai trên thiết bị thành hiện thực. KO | 증강현실(AR): AR 안경이 실제 세계에 디지털 객체를 오버레이하려면, 장면의 기하학적 구조를 즉각적이고 저지연으로 이해해야 합니다. D4RT의 효율성은 온디바이스 배포를 현실로 만드는 데 기여합니다.

EN | World Models: By effectively disentangling camera motion, object motion, and static geometry, D4RT brings us a step closer to AI that possesses a true "world model" of physical reality — a necessary step on the path to AGI. VI | Mô hình thế giới: Bằng cách tách biệt hiệu quả chuyển động camera, chuyển động vật thể và hình học tĩnh, D4RT đưa chúng ta tiến gần hơn một bước đến AI sở hữu "mô hình thế giới" thực sự về thực tại vật lý — một bước cần thiết trên con đường đến AGI. KO | 세계 모델: 카메라 움직임, 물체 움직임, 정적 기하학을 효과적으로 분리함으로써, D4RT는 물리적 현실에 대한 진정한 '세계 모델'을 갖춘 AI에 한 걸음 더 가까이 다가서게 합니다. 이는 AGI로 가는 길에서 반드시 필요한 단계입니다.

EN | We're continuing to explore the model's capabilities and potential for applications across robotics, augmented reality, and beyond. VI | Chúng tôi tiếp tục khám phá các khả năng của mô hình và tiềm năng ứng dụng trong robot học, thực tế tăng cường và nhiều lĩnh vực hơn nữa. KO | 저희는 로보틱스, 증강현실 등 다양한 분야에 걸친 모델의 능력과 응용 가능성을 계속해서 탐구해 나가고 있습니다.