OpenAI đã ra mắt mô hình mới mang tên o1, mặc dù mất nhiều thời gian hơn để phản hồi, nhưng mô hình này có độ chính xác cao hơn đáng kể và cung cấp câu trả lời chi tiết hơn so với các mô hình trước đây.
Trước đây được biết đến với tên dự án Strawberry hoặc Q*, đây là một mô hình lý luận, xử lý từng bước để giải quyết vấn đề, thay vì tạo ra phản hồi theo từng từ như các mô hình khác.
Mặc dù không hoàn hảo cho mọi nhiệm vụ, nhưng o1 nổi trội trong các lĩnh vực như toán học, lập trình và các vấn đề yêu cầu suy nghĩ và phân tích kỹ lưỡng. Ví dụ, nó có thể phân tích bảng chấm công và dữ liệu ca làm việc của một cửa hàng lớn để đưa ra mô hình làm việc tối ưu.
Hiện tại, mô hình o1 có hai phiên bản: o1-preview và o1-mini. Điều thú vị là o1-mini có vẻ mạnh hơn, nhưng lại có cơ sở dữ liệu kiến thức nhỏ hơn. Báo cáo chỉ ra rằng o1-preview được huấn luyện trên kiến trúc cũ hơn so với o1-mini, và phiên bản o1 đầy đủ bị cho là quá mạnh để phát hành nếu chưa được trang bị thêm các biện pháp bảo mật và an toàn.
Mô hình mới này sẽ đặc biệt hữu ích cho các nhà nghiên cứu và sinh viên, bởi nó đã thể hiện khả năng tương đương với trình độ Tiến sĩ trong các lĩnh vực toán học, khoa học công nghệ và kỹ thuật. Tôi đã tạo ra một số câu lệnh để thực sự thử nghiệm giới hạn của nó, nhưng với chỉ 30 tin nhắn mỗi tuần, tôi phải tìm cách tối ưu hóa mỗi câu lệnh. Dù vậy, OpenAI đã đặt lại giới hạn để người dùng Plus và Teams có thêm thời gian trải nghiệm mô hình này. Tuy nhiên, nó không được cung cấp cho người dùng miễn phí của ChatGPT.
Với một loại mô hình mới, cách đưa ra câu lệnh cũng cần thay đổi. o1 xử lý một truy vấn bằng cách suy nghĩ và phân tích vấn đề cho đến khi tìm ra giải pháp. Do đó, cách tốt nhất là bạn hãy mô tả chi tiết nhất có thể về những gì bạn muốn đạt được, sau đó để AI thực hiện.
Một mẹo hay là bạn có thể sử dụng một mô hình AI khác như GPT-4o hoặc Sonnet 3.5 để tinh chỉnh ý tưởng cơ bản thành một câu lệnh có thể làm việc cho o1. Điều này có thể bao gồm việc chia nhỏ từng bước mà mô hình cần thực hiện hoặc phân tách vấn đề thành các thành phần nhỏ hơn.
Ngoài hiệu suất và độ chính xác được cải thiện, o1 còn có cửa sổ đầu ra lớn hơn đáng kể. Điều này có nghĩa là nó có thể tạo ra một báo cáo hoàn chỉnh, viết toàn bộ mã nguồn hoặc cung cấp phản hồi chi tiết cho một truy vấn phức tạp so với các mô hình OpenAI khác.
1. A PLAN TO TERRAFORM MARS
Một trong những điều ấn tượng nhất khi thử nghiệm o1 là khả năng nó giải thích phản hồi của mình một cách có cấu trúc và đưa ra giải thích chi tiết về lý do tại sao nó lại phản hồi như vậy. Dưới đây là một ví dụ nổi bật khi nó chia nhỏ phần phản hồi theo từng phần và đưa ra lời giải thích.
Câu lệnh: “Phát triển một kế hoạch toàn diện để biến đổi sao Hỏa, giải quyết các thách thức lớn như bảo vệ khỏi bức xạ, tạo ra bầu khí quyển và quản lý tài nguyên bền vững. Bao gồm ước tính thời gian và các đột phá công nghệ tiềm năng cần thiết.”
Xem chi tiết báo cáo trả lời câu lệnh tại in a Google Doc
2. A NEW FORM OF MATH
Thử nghiệm tiếp theo là một câu lệnh đơn giản nhưng chứa một vấn đề phức tạp. Tôi muốn tạo ra một hệ thống toán học mới không cần đến số, nhưng vẫn phải hoạt động được và AI phải giải thích cách chúng ta có thể sử dụng hệ thống toán học mới này với các ứng dụng tiềm năng.
Câu lệnh: “Thiết kế một hệ thống toán học thay thế không dựa trên hệ thống số hoặc logic hiện tại của chúng ta. Giải thích các nguyên tắc cơ bản, hoạt động và các ứng dụng tiềm năng của nó.”
Xem chi tiết báo cáo trả lời câu lệnh tại in a Google Doc.
3. A NEW SYSTEM OF LOCAL GOVERNMENT
Sau hai câu lệnh khá đơn giản, hãy thử một câu lệnh chi tiết hơn với thử nghiệm thứ ba. Ở đây, ta yêu cầu nó đưa ra một hệ thống chính phủ mới để giải quyết các vấn đề của các mô hình hiện tại.
Câu lệnh: “Thiết kế một hệ thống chính phủ mới giải quyết các thiếu sót chính của các hệ thống dân chủ, độc tài và các hệ thống hiện có khác. Đề xuất của bạn nên xem xét:
Quy trình ra quyết định và cấu trúc quyền lực
Đại diện và sự tham gia của công dân
Kiểm tra và cân bằng để ngăn chặn lạm quyền
Mô hình kinh tế và phân bổ tài nguyên
Cách tiếp cận việc lập pháp và thực thi luật
Xử lý quyền cá nhân và trách nhiệm chung
Phương pháp thích ứng với thách thức dài hạn và khủng hoảng
Tích hợp công nghệ vào quản trị
Khả năng mở rộng từ cấp địa phương đến cấp toàn cầu
Đánh giá những điểm mạnh và yếu của hệ thống đề xuất của bạn và thảo luận về cách nó có thể được triển khai hoặc chuyển đổi từ các hình thức chính phủ hiện tại.”
Xem chi tiết báo cáo trả lời câu lệnh tại a Google Doc.
4. A MARS-BASED RESOURCE MANAGEMENT GAME
Lập trình là lĩnh vực mà o1 thực sự tỏa sáng. Khả năng tạo ra đầu ra dài hơn, cũng như các phản hồi hợp lý và chính xác hơn, cho phép nó kỹ lưỡng hơn trong việc tạo mã. Ta thử thách nó bằng việc tạo một trò chơi thuộc địa trên sao Hỏa. Nó phải tạo ra chức năng quản lý tài nguyên, giao diện người dùng và yếu tố gameplay thú vị, tất cả chỉ từ một câu lệnh duy nhất.
Câu lệnh cho thử thách này khá dài và chi tiết, vì vậy để ngắn gọn, ta chỉ nêu dòng đầu tiên và một phần tóm tắt: “Tạo phiên bản 2D của trò chơi Age of Empires đặt bối cảnh trên sao Hỏa sử dụng Python và Pygame.” Câu lệnh tiếp tục yêu cầu các yếu tố và thông số kỹ thuật như kích thước cửa sổ trò chơi, bảng màu, tòa nhà và cơ chế gameplay.
5. AN EMOJI-TO-ENGLISH DICTIONARY
Cuối cùng, sau nhiều lần thử thách với các vấn đề lý luận mà các mô hình khác không giải quyết được, ta hãy thử yêu cầu nó tạo ra một ngôn ngữ mới, nhưng điều đó có vẻ quá chung chung, nên ta hãy yêu cầu nó biến emoji thành một ngôn ngữ chính thức.
Câu lệnh: “Giả sử một tình huống mà một nhóm người chỉ có thể giao tiếp bằng emoji. Đó là cách họ giao tiếp với nhau. Chỉ sử dụng các emoji phổ biến, tạo ra một từ điển emoji sang tiếng Anh để giúp người trong nhóm đó có thể giao tiếp với người bên ngoài nói tiếng Anh như chúng ta ngày nay. Nó phải đủ toàn diện để sử dụng cho cả giao tiếp thông thường và kỹ thuật.”
Xem chi tiết báo cáo trả lời câu lệnh tại in a Google Doc.
NHỮNG SUY NGHĨ CUỐI CÙNG
Khi lần đầu tiên sử dụng hai mô hình o1 khác nhau, vấn đề lớn nhất mà ta gặp phải là nghĩ ra các ý tưởng để thử. Chúng gần như khiến AI rời đi, suy nghĩ và quay lại với một phản hồi hợp lý hơn. Nhưng chúng không có quyền truy cập vào bất kỳ tính năng nào chúng ta đã quen thuộc từ các mô hình AI hiện đại, bao gồm truy cập web, bộ nhớ và phân tích dữ liệu.
Nó đặc biệt giỏi trong lập trình, công việc có tính khái niệm dài như từ điển emoji và các vấn đề đòi hỏi khả năng lý luận. Một ví dụ ta thấy trên X là ai đó đã sử dụng nó để tạo lịch làm việc bằng cách phân tích giờ làm việc khả dụng của nhân viên và các ca làm việc cần thiết.
Khi OpenAI thêm khả năng tải các tệp dữ liệu, điều này sẽ tạo nên bước đột phá trong lĩnh vực kinh doanh và có thể được sử dụng để tổ chức kỳ nghỉ gia đình, tính toán tất cả các phức tạp của chuyến đi, bao gồm thời gian và lịch trình.
Hiện tại, với chỉ 30 tin nhắn mỗi tuần (đã dùng một nửa trong một ngày), đây là một trải nghiệm thú vị, nhưng với hầu hết các trường hợp sử dụng, GPT-4o là đủ. Trên thực tế, GPT-04o mini là đủ cho cách mà phần lớn mọi người sử dụng AI và Apple Intelligence cũng tốt như mô hình này.
Kommentare