Việc tạo ra các clip có độ hoàn thiện gần như chuyên nghiệp đang dần nằm trong tầm tay của mọi người: OpenAI đã trình bày Sora 2, mô hình video mới với âm thanh tích hợp, cùng với ứng dụng iPhone giúp việc sử dụng trực tiếp và xã hội dễ dàng hơn. Đề xuất tập trung vào khả năng truy cập và sự nhất quán về hình ảnh và âm thanh, với những kết quả mà theo các cuộc trình diễn, có vẻ hợp lý hơn nhiều.
Sự ra mắt này kết hợp những tiến bộ kỹ thuật với một lớp sản phẩm được thiết kế dành cho người sáng tạo và công chúng nói chung. Sora 2 hứa hẹn độ trung thực vật lý tốt hơn, tính liên tục giữa các cảnh quay và kiểm soát phong cách, cũng như một công cụ chỉnh sửa cho phép bạn chèn người của riêng bạn vào các cảnh được tạo. Việc triển khai bắt đầu bằng lời mời ở Hoa Kỳ và Canada, miễn phí với chỗ ngồi và các tùy chọn chất lượng cao hơn dành cho người đăng ký ChatGPT.
Sora 2 là gì và nó thực sự mang lại điều gì?
Phiên bản mới có bước tiến đáng kể so với Sora đầu tiên: giờ đây hệ thống duy trì sự tồn tại của đối tượng và trạng thái trên nhiều mặt phẳng, nó xâu chuỗi các hành động mà không phá vỡ tính liên tục và tuân thủ tốt hơn các định luật vật lý. OpenAI minh họa điều này bằng một cú ném bóng rổ hỏng, lần này, nảy tự nhiên thay vì "dịch chuyển tức thời" đến vòng, một lỗi thường gặp ở các mô hình trước đây.

Hành vi đáng tin cậy hơn này được hỗ trợ bởi quá trình đào tạo quy mô lớn với dữ liệu video và các kỹ thuật kiểm soát tường thuật chính xác hơn. Mô hình hiểu được các tín hiệu phức tạp, tôn trọng tính liên tục về không gian và thời gian, và cung cấp các phong cách từ phim ảnh với hoạt hình, với sự điều chỉnh thời lượng và thay đổi cảnh nhất quán hơn.
Âm thanh tích hợp, phong cách và khả năng kiểm soát sáng tạo
Một điều mới lạ khác là tạo âm thanh bản địaSora 2 tạo ra âm thanh, hiệu ứng và thậm chí cả lời thoại đồng bộ với hình ảnh chỉ bằng một lệnh đơn giản. Sự tích hợp này mang lại trải nghiệm nhập vai và giảm thiểu sự phụ thuộc vào khâu hậu kỳ, điều mà chỉ một vài giải pháp thay thế trên thị trường hiện nay mới có thể làm được.
Hệ thống cho phép điều chỉnh tông màu, đóng khung và xử lý hình ảnh, và cho phép các chuỗi ngắn - thường là lên đến 10 giây— được thiết kế cho mục đích sử dụng di động. Mặc dù tiến bộ rõ ràng, OpenAI thừa nhận rằng mô hình vẫn còn mắc lỗi và sự nhất quán tổng thể không được đảm bảo trong mọi bối cảnh.
Ứng dụng xã hội: khách mời, nguồn cấp dữ liệu có thể tùy chỉnh và kiểm duyệt
Cùng với mô hình, OpenAI đang phát hành một ứng dụng iOS có tên Sora với nguồn cấp dữ liệu video và các tính năng tinhNgười dùng có thể xuất hiện như một vai khách mời trong các cảnh được tạo ra sau khi xác minh khuôn mặt và giọng nói ngắn gọn, cho phép chèn hình ảnh của họ với các quyền rõ ràng. Theo thiết kế, quá trình tạo diễn ra trong ứng dụng, và ngoại trừ quy trình xác minh đó, không hỗ trợ tải lên các tập tin từ cuộn camera ở giai đoạn này.
Công ty tuyên bố rằng thuật toán nguồn cấp dữ liệu được hướng dẫn bởi hướng dẫn bằng ngôn ngữ tự nhiên và ưu tiên nội dung từ những người mà người dùng tương tác, tránh tối ưu hóa thời gian sử dụng. Để tăng cường bảo mật, Sora áp đặt các giới hạn mặc định cho Thanh thiếu niên, tích hợp tính năng kiểm soát của phụ huynh từ ChatGPT và hạn chế các mục đích sử dụng nhạy cảm: khuôn mặt của người nổi tiếng mà không được sự đồng ý, cũng như nội dung dành cho người lớn hoặc cực đoan đều không được phép.
Về nguồn gốc và quyền, tất cả các video đều bao gồm hình mờ và thông tin xác thực kỹ thuật số để xác định nguồn gốc của nó. OpenAI tuyên bố có các công cụ phát hiện nội bộ và thậm chí hạn chế ảnh chụp màn hình. Ở cấp độ sở hữu trí tuệ, công ty duy trì một hệ thống yêu cầu loại trừ đối với những người nắm giữ bản quyền, một quyết định đã khơi lại cuộc tranh luận về việc đào tạo bằng tài liệu có sẵn trên Internet.
Truy cập, giá cả và lộ trình
Việc truy cập bắt đầu bằng lời mời tại Hoa Kỳ và Canada, với mục đích sử dụng ban đầu hạn ngạch miễn phí và hào phóng tùy thuộc vào khả năng tính toán. Người đăng ký ChatGPT Pro có tùy chọn chất lượng cao hơn, Sora 2 Pro và công ty có kế hoạch mở một API sau đó. Mẫu trước đó, Sora 1 Turbo, cũng sẽ được giữ lại và phiên bản Android đang được lên kế hoạch, nhưng chưa có ngày xác nhận.
OpenAI có kế hoạch cho phép thanh toán để tạo ra nhiều video hơn nếu nhu cầu vượt quá nguồn lực. Tại Châu Âu, việc mở rộng sẽ phụ thuộc vào những cân nhắc về quy định, vì vậy hiện tại không có lịch công khai nào.
Tác động đến người sáng tạo và cạnh tranh thị trường
Đối với các studio nhỏ, các công ty và những người sáng tạo solo, Sora 2 giảm bớt rào cản bằng cách cho phép vật liệu chất lượng cao với chi phí và thời gian thấp hơn. Đồng thời, nó gây áp lực lên các lĩnh vực như video stock hoặc một số quy trình hoạt hình và VFX, vốn sẽ phải song hành với AI có khả năng sao chép các tác vụ chỉ trong vài giây.
Phong trào này phù hợp với một hệ sinh thái đang phát triển mạnh mẽ: Google đang thúc đẩy Veo 3, Meta đang khám phá các định dạng xã hội bằng AI và các nền tảng như Runway và Pika đang đạt được tiến bộ trong việc tạo ra nội dung nghe nhìn. Cam kết của OpenAI trong việc hợp nhất mô hình và mạng xã hội nhằm mục đích tạo sự khác biệt bằng trải nghiệm tích hợp kết hợp giữa sáng tạo, tham gia và kiểm soát bản sắc.
Sora 2 chỉ ra một hướng đi rõ ràng: video đáng tin cậy hơn, âm thanh đồng bộ và một tầng xã hội được thiết kế để sáng tạo và chia sẻ với ít rào cản hơn. Dự án đi kèm với các biện pháp kiểm soát chặt chẽ hơn và những tranh cãi công khai về quyền lợi và đào tạo, nhưng cũng hứa hẹn mang sản phẩm nghe nhìn tiên tiến đến với nhiều người hơn, trong khi chờ triển khai toàn cầu.