OpenAI ra mắt Operator: AI Agent bán tự động đầu tiên - Tất tần tật những điều cần biết

23 tháng 1, 2025 · 7 phút để đọc

1. Các khả năng chính

Đầu tiên phải kể đến khả năng tự động hóa tác vụ đáng kinh ngạc của Operator. Em nó có thể xử lý hàng loạt công việc trên web, từ những việc đơn giản như đặt chỗ nhà hàng qua OpenTable, đặt hàng tạp hóa trên Instacart, mua vé sự kiện trên StubHub, cho đến lên kế hoạch du lịch phức tạp hơn với Priceline.

Demo khả năng đặt bàn cho bữa tối tự động bằng Operator

Điểm đặc biệt làm nên sự "người" của Operator chính là tương tác giống con người. Sức mạnh này đến từ mô hình Computer-Using Agent (CUA). Thay vì dựa vào API như hiện tại, Operator quan sát và hành động y hệt chúng ta khi dùng trình duyệt. Nó phân tích ảnh chụp màn hình, rồi dùng chuột và bàn phím ảo để gõ, nhấp chuột, cuộn trang – tất cả đều rất tự nhiên. Cách tiếp cận này giúp Operator "bắt tay" được với hầu hết mọi trang web, mở ra khả năng ứng dụng rộng lớn hơn nhiều.

Không chỉ vậy, Operator còn thông minh ở chỗ có khả năng lập luận và tự sửa lỗi. Nhờ sự kết hợp giữa "nhãn quan" của GPT-4o và reinforcement learning, Operator biết cách chia nhỏ các tác vụ phức tạp thành các bước nhỏ dễ thực hiện. Nếu gặp "thế bí", em nó biết cách "quay xe" để thử lại, hoặc lịch sự "xin ý kiến" người dùng khi cần thông tin nhạy cảm như dữ liệu cá nhân. Đặc biệt, Operator còn có khả năng ghi nhớ các bước thực hiện, cho phép quay lại và chỉnh sửa bất kỳ bước nào nếu cần thiết, đảm bảo độ chính xác cao.

2. Tính khả dụng & Giá cả

Hiện tại, Operator vẫn đang trong giai đoạn bản xem trước nghiên cứu, chỉ dành riêng cho người dùng ChatGPT Pro ở Mỹ với mức phí $200/tháng. OpenAI có kế hoạch mở rộng ra các gói Plus, Team và Enterprise trong tương lai. Tuy nhiên, người dùng ở châu Âu có thể phải chờ đợi lâu hơn một chút.

Để trải nghiệm Operator, bạn có thể truy cập qua operator.chatgpt.com. Tại đây, bạn chỉ cần nhập yêu cầu và "ngồi xem" trình duyệt ảo thực hiện tác vụ theo thời gian thực.

3. An toàn & Giới hạn

OpenAI rất chú trọng đến yếu tố an toàn khi phát triển Operator. Với các hành động nhạy cảm như mua hàng hay gửi email, Operator đều cần xác nhận từ người dùng. Em nó cũng được "dạy" để tránh xa các trang web "nhạy cảm" như nền tảng ngân hàng. Đặc biệt, thông tin thanh toán vẫn phải do người dùng nhập thủ công, đảm bảo an toàn tối đa. Operator cũng lưu trữ cookie để tiện cho việc đăng nhập và thanh toán, nhưng người dùng hoàn toàn có quyền kiểm soát các cookie này, đảm bảo sự riêng tư và bảo mật thông tin cá nhân.

Tuy nhiên, Operator vẫn còn những giới hạn nhất định. Em nó có thể "bối rối" với các giao diện phức tạp như quản lý lịch, slideshow, hoặc các trang web có cấu trúc "khác người". Tỷ lệ thành công của Operator cũng chưa đồng đều, ví dụ như việc tạo ví Bitcoin chỉ đạt tỷ lệ thành công khoảng 10%.

Để đảm bảo bảo mật, OpenAI đã trang bị cho Operator hệ thống giám sát prompt độc hại, khả năng tự động tạm dừng khi phát hiện hoạt động đáng ngờ, và hợp tác với các công ty để đảm bảo tuân thủ các điều khoản dịch vụ.

4. Bối cảnh cạnh tranh

Khi so sánh với các đối thủ, benchmark cho thấy Operator đang vượt trội hơn Computer Use của Anthropic (87% so với 56% trên WebVoyager) và Mariner của Google trong các tác vụ trình duyệt. Tuy nhiên, nếu so với hiệu suất của con người, Operator vẫn còn phải cố gắng nhiều (72.4% so với 38.1% trên OSWorld).

Trong "cuộc đua" AI Agent này, Operator cạnh tranh trực tiếp với UI-TARS mã nguồn mở của ByteDance và Project Mariner của Google. Tuy nhiên, lợi thế của Operator nằm ở khả năng hoạt động trên nền tảng đám mây và các mối quan hệ hợp tác với các doanh nghiệp lớn như DoorDash, Uber.

5. Lộ trình tương lai

Trong tương lai gần, OpenAI có kế hoạch tích hợp Operator trực tiếp vào giao diện chính của ChatGPT và mở rộng phạm vi hoạt động ra toàn cầu.

Hãng cũng ấp ủ kế hoạch phát hành CUA dưới dạng API, mở đường cho các nhà phát triển xây dựng các agent tùy chỉnh cho riêng mình.

Operator cũng được nhắm đến ứng dụng trong doanh nghiệp, thông qua việc hợp tác với các thành phố (ví dụ: Stockton, CA) và các công ty (Etsy, Instacart) để tối ưu hóa quy trình làm việc, từ dịch vụ công đến trải nghiệm mua sắm cá nhân hóa.

6. Năng suất vượt trội với khả năng chạy song song

Một điểm cực kỳ quan trọng và có thể tạo nên sự khác biệt lớn cho Operator chính là khả năng chạy song song nhiều agent cùng lúc. Thay vì chỉ có thể giao một tác vụ cho một agent, bạn có thể khởi chạy nhiều Operator agents đồng thời, mỗi agent đảm nhận một công việc khác nhau. Điều này mở ra tiềm năng tăng năng suất làm việc lên gấp bội, đặc biệt với những công việc đòi hỏi nhiều tác vụ song song. Đây có thể là một trong những bước tiến lớn nhất trong lịch sử về năng suất của con người, khi AI trở thành công cụ hỗ trợ đắc lực, giúp chúng ta hoàn thành nhiều việc hơn trong cùng một khoảng thời gian.

Những cân nhắc chính

Tuy nhiên, hành trình phát triển Operator cũng không tránh khỏi những rủi ro đạo đức. Sự chậm trễ ban đầu do các lỗ hổng prompt injection cho thấy OpenAI đang rất thận trọng trong việc cân bằng giữa đổi mới và an toàn.

Phản hồi từ người dùng ban đầu khá tích cực, nhiều người khen ngợi sự tiện lợi của Operator. Trong quá trình Operator làm việc, người dùng có thể theo dõi trực tiếp và đưa ra phản hồi, hướng dẫn hoặc điều chỉnh nếu cần thiết. Điều này đảm bảo sự kiểm soát của con người trong suốt quá trình vận hành của agent. Tuy nhiên, cũng có những ý kiến chỉ ra các vấn đề về độ tin cậy, nhấn mạnh rằng Operator vẫn đang trong giai đoạn hoàn thiện.

Tóm lại, Operator là một bước đi táo bạo của OpenAI trong lĩnh vực AI Agent, kết hợp sức mạnh tự động hóa với sự kiểm soát của con người. Dù vẫn còn những hạn chế, tiềm năng của Operator trong việc thay đổi cách chúng ta quản lý các tác vụ số và đặc biệt là nâng cao năng suất làm việc là vô cùng lớn. Để hiểu rõ hơn về Operator, bạn có thể xem demo ở video live stream của OpenAI ở dưới này nhé😘

Admin

1. Các khả năng chính​

2. Tính khả dụng & Giá cả​

3. An toàn & Giới hạn​

4. Bối cảnh cạnh tranh​

5. Lộ trình tương lai​

6. Năng suất vượt trội với khả năng chạy song song​