Skip to main content
Admin

Admin

Hunter

A.I: Bối cảnh dịch chuyển (P.5)

· 15 min read
Nguồn: GS Trần Thế Truyền - Giáo sư, Nhà nghiên cứu AI

Series này nằm trong khuôn khổ bài nói chuyện tại ĐHQG HCM ngày 19/8/2024. Bốn phần trước mình đã làm rõ thêm một số ý thảo luận tại hội trường và bên lề.

Phần này và vài phần tiếp mình trình bày nội dung chuẩn bị cho bài nói hôm đó, đến tận kỳ nghỉ lễ vừa rồi mới có thời gian dịch ra tiếng Việt và biên tập lại (hôm đó khó khách quốc tế nên nói tiếng Anh). Thứ tự trình bày các phần vì thế hơi ngược.

Bài nói đặt trong bối cảnh AI Tạo sinh đang đảo lộn sân khấu công nghệ, định hình lại cách chúng ta sáng tạo, đổi mới và giải quyết vấn đề trong nhiều lĩnh vực. Trong bài nói chuyện này, tôi chia sẻ về sự phát triển của ngành AI và ảnh hưởng của nó đối với khoa học, công nghệ.

Ảnh hưởng lớn đến nỗi, chúng tôi, những người đã nghiên cứu AI từ 20 năm qua, đang phải ngồi lại để trả lời câu hỏi hiện sinh: Làm gì giờ này? Gần 2 năm trước tôi viết một tút hơi hài hước, rằng thì là đừng ước có AI, vì nhà giàu rồi cũng khóc.

Giờ thì ai trong ngành cũng phải khóc cả. Nhưng thôi, trước khi thảo luận câu hỏi hiện sinh đầy tính triết học kia, hãy quay lại bài nói vào tháng 8 năm ngoái đã.

ảnh trong slide của GS Truyen Tran

Hành trình cá nhân

Năm 1997 tôi, một thanh niên nhà quê ra phố, lần đầu tiếp xúc với khái niệm AI khi đang học năm nhất ĐH KHTN Hà Nội. Khi đó tôi đang mơ tưởng trở thành một nhà Vật lý như thầy mình, GS Đàm Trung Đồn. Ý niệm ấy mạnh đến nỗi một người bạn thời thơ ấu rất nhiều năm sau luôn quả quyết rằng tôi dứt khoát đã trở thành một nhà Vật lý Hạt nhân!

Khi ấy một người bạn cùng phòng - một người Hà Nội từng thi Tin học quốc gia - mang về một cuốn sách AI. Tôi không nhớ nội dung, nhưng tôi đoán là về hệ chuyên gia. Là một người hầu như chưa từng gõ bàn phím máy tính, tôi không để tâm nhiều cho đến tận sau này.

Năm 1999, tôi nhận được học bổng để học tại Đại học Tổng hợp Melbourne, Úc, vẫn với mục tiêu trở thành nhà Vật lý. Tuy nhiên, khi đến đó, tôi nhận ra rằng con đường duy nhất để kiếm sống với tư cách là nhà Vật lý là phải làm tiến sĩ. Vì vậy tôi chuyển sang Khoa học Máy tính, và học một vài khóa về AI, chủ yếu về tìm kiếm và logic bậc nhất. Mạng nơ-ron được nhắc đến sơ qua, nhưng không có học máy.

Tuy nhiên, những năm tháng học Vật lý khiến tôi vẫn nghĩ về AI như Vật lý cho đến tận bây giờ. Đối với tôi, AI giống Vật lý hơn là Khoa học Máy tính hay Toán học.

A.I NGHĨA LÀ GÌ?

Hãy quay lại một chút về lịch sử của AI. Khoảng năm 1956, giới khoa học đã bày tỏ mong muốn làm điều gì đó đột phá: "Trong số những câu hỏi khoa học thách thức nhất thời đại chúng ta là những vấn đề phân tích và tổng hợp: Não bộ hoạt động như thế nào? Chúng ta có thể thiết kế một cỗ máy mô phỏng não bộ không?" (trích Automata Studies)

Kể từ đó, tiến bộ của AI khá từ từ với những giai đoạn "mùa đông" định kỳ vào thập niên 1970 và 1990.

Làn sóng AI hiện tại, bắt đầu từ khoảng năm 2012, đã không thu hút sự chú ý "điên rồ" của công chúng cho đến khi ChatGPT ra đời vào cuối năm 2022. Sự gia tăng về kích thước mô hình là phi thường. Điện năng cần thiết để chạy các mô hình AI tăng vọt đến mức hiện nay đang có kế hoạch khôi phục năng lượng hạt nhân, vốn đã chậm lại trước đây (có thể do lo ngại về an toàn).

Cuộc đua giữa các công ty công nghệ lớn và các startup chưa bao giờ gay gắt như thế này.

Năm 2024, chủ đề được bàn luận nhiều nhất là làm thế nào chúng ta có thể xây dựng quy trình tác tử (agentic workflow) để giải quyết các vấn đề phức tạp, và tạo ra những người bạn kỹ thuật số (digital companion) với bộ nhớ vô hạn. Làm thế nào để tương tác với một người bạn như vậy? Làm thế nào để xây dựng một hệ thống tương thích với con người? Khả năng cao là hệ thống sẽ là đa phương thức, có thể có một cơ thể vật lý, và có lý thuyết về tâm trí (theory of mind).

Về cơ bản, AI không được phát minh để giải quyết một vấn đề hay nhiệm vụ cụ thể nào. AI là một công nghệ đa năng, có nghĩa là nó có thể được áp dụng cho bất kỳ lĩnh vực nào, bất cứ khi nào chúng ta cần giải pháp thông minh.

Vì thế sẽ hữu ích nếu phân chia AI thành các loại năng lực mà chúng ta mong muốn. Có ba loại AI mà chúng ta có thể sử dụng:

  • Loại đầu tiên, AI tự động hóa các nhiệm vụ có cần năng lực nhận thức. Trong loại này, AI sẽ mã hóa các khái niệm (ví dụ như từ vựng) và từ đó cố gắng tự động hóa các nhiệm vụ thường được thực hiện bởi con người (ví dụ như dịch thuật). Cách này đã được sử dụng trong những thập kỷ qua. Ví dụ, chúng ta dùng AI để nhận diện khuôn mặt và giọng nói, và dịch thuật.

  • Loại AI thứ hai là trợ lý nhận thức. Loại AI này giống như những người bạn số giúp chúng ta nhận thức thế giới rõ nét hơn, suy nghĩ rõ ràng hơn, giải quyết vấn đề tốt hơn. Loại này đặc biệt hữu ích hơn trong tương lai gần, ví dụ như AI tạo sinh ngày nay.

  • Loại AI thứ ba thường thấy trong phim khoa học viễn tưởng, ví dụ Kẻ hủy diệt. Loại AI này hoàn toàn tự chủ mà không cần chúng ta tư vấn hay giám sát. Nó có thể tồn tại ngoài nhận thức của con người. Sự tồn tại của nó là vì chính nó. Nó không liên quan gì đến nhân loại. Hiện AI chưa đạt đến mức đó, nhưng thật đáng sợ khi nghĩ về viễn cảnh này.

Trước khi chúng ta đi đến viễn cảnh đó, hãy quay lại câu hỏi rất cơ bản về AI. Nhiệm vụ AI là học một máy Turing từ dữ liệu hoặc từ khám phá môi trường. Nói cách khác, câu hỏi là: Chúng ta có thể thiết kế một chương trình tự học lập trình không?

NHỮNG KHOẢNG KHẮC ĐÁNG NHỚ

Trong hành trình nghiên cứu 20 năm của mình, có những lúc tôi cảm thấy cần thay đổi một cách rõ ràng.

Khủng hoảng với sự phức tạp

Hành trình nghiên cứu của tôi bắt đầu năm 2004 với việc học tiến sĩ. Khoảng năm 2006-2007, tôi đang giải quyết một vấn đề rất thú vị: Dự đoán đầu ra có cấu trúc lồng nhau và phân cấp. Đó là một phần của luận án tiến sĩ của tôi. Giải pháp mà tôi tìm ra thoạt tiên nhìn rất đẹp, nhưng thực ra nó lằng nhằng đến mức phải mất hàng chục trang để viết tất cả các phương trình để phủ hết các trường hợp đặc biệt. Việc lập trình sau đó khó đến mức tôi không nghĩ ai có thể làm lại chỉ bằng cách đọc bài báo. Mã nguồn được viết bằng C/C++ nhưng vẫn mất quá nhiều thời gian để chạy trên một bộ dữ liệu tiêu chuẩn thời đó. Đó là lúc tôi nhận ra rằng loại AI mà chúng tôi đang làm việc quá phức tạp và có lẽ chúng tôi cần dừng lại một chút để suy nghĩ xem loại AI nào nên tập trung vào. Chúng tôi cần một luồng gió mới, tìm kiếm các góc nhìn khác.

Với nhận thức đó, khi hoàn thành công việc, tôi dừng lại và chuyển hướng. Tôi không gửi kết quả để đăng tạp chí cho đến tận sau này, khi Học sâu (deep learning) trở thành chủ đề nóng. Bất ngờ là, mô hình của tôi hóa ra lại khá "sâu" bởi có nhiều lớp! Vì vậy năm 2016 (sau 9 năm!), tôi đã gửi bài đến tạp chí Trí khôn Nhân tạo (Artificial Intelligence), một trong những tạp chí tốt nhất của ngành. Quá trình phản biện mất rất nhiều thời gian và cuối cùng chẳng ai thực sự phản biện cả. Và sau một thời gian rất dài, có lẽ hơn một năm, ban biên tập quyết định chấp nhận bài báo mà không cần phản biện.

Trong quá trình làm nghiên cứu sinh, tôi đọc về một mô hình phát triển bởi Giáo sư Geoffrey Hinton, người sau này đã giành giải Turing năm 2019. Đó là Máy Boltzmann Hạn chế (Restricted Boltzmann Machines), một loại mạng nơ-ron ngẫu nhiên cho phép chúng ta xây dựng phân phối của dữ liệu đa chiều. Nó có thể làm được nhiều thứ như giảm chiều dữ liệu, khuyến nghị và sinh ảnh, tuy kém xa so với các mô hình sinh ngày nay. Một phát hiện quan trọng là các máy Boltzmann hạn chế có thể được xếp chồng thành một mô hình sâu hơn gọi là Mạng Niềm tin Sâu (Deep Belief Networks). Năm 2006, Giáo sư Hinton và học trò của ông đã chứng minh lần đầu tiên rằng những mô hình sâu này thực sự có thể hoạt động tốt và chúng ta có thể huấn luyện thành công các mạng nơ-ron có kích thước lớn với nhiều lớp. Đó là một thời khắc quan trọng trong lịch sử AI vì tất cả các nỗ lực trước đó để huấn luyện mạng nơ-ron sâu đều không đi đến đâu. Các mô hình có nhiều lớp ẩn không thể huấn luyện được và không hội tụ đến những nghiệm đủ tốt.

Việc huấn luyện một mạng sâu bằng cách xếp chồng là một khoảnh khắc quyết định của cái mà ngày nay chúng ta gọi là Học sâu (deep learning), mặc dù thuật ngữ "Học sâu" không được giới thiệu vào lúc đó, mà phải đến tận sau này. Được truyền cảm hứng từ thành công của Mạng Niềm tin Sâu, cộng đồng nghiên cứu đã khám phá những cách mới để sử dụng mạng nơ-ron cho học phi giám sát, với hy vọng là bằng cách học biểu diễn dữ liệu tốt, mạng nơ-ron có thể được tinh chỉnh dễ dàng cho các tác vụ cụ thể. Đó là hướng đi đúng, nhưng lúc đó công nghệ vẫn chưa sẵn sàng.

Bước đột phá của Học sâu

Lĩnh vực Học sâu không có nhiều tiến bộ cho đến khoảng năm 2011 và 2012, khi hai nhóm nghiên cứu độc lập chứng minh rằng Mạng Nơ-ron Tích chập (Convolutional Neural Networks), một loại mạng nơ-ron sâu đặc biệt được thiết kế cho xử lý ảnh, có thể được huấn luyện hiệu quả trên bộ xử lý đồ họa (GPU) thay vì bộ xử lý trung tâm (CPU). Mạng này có thể được huấn luyện trên hàng triệu ảnh, theo phương pháp có giám sát.

Mô hình chiến thắng thuyết phục trong cuộc thi ImageNet năm 2012 là AlexNet, cũng do Giáo sư Hinton và học trò của ông viết ra. Đó là một khoảnh khắc định hình AI hiện đại, khi giờ đây AI có thể được huấn luyện từ đầu đến cuối mà không cần bóc tách các đặc trưng theo cách thủ công.

Chiến thắng của AlexNet đã kích thích sự quan tâm rộng rãi của cộng đồng, cả giới học thuật và công nghiệp. Lĩnh vực Học sâu cuối cùng đã cất cánh.

Lúc đó tôi nhận thấy một sự thay đổi lớn trong ngành Học máy. Trước đó, lĩnh vực học máy chủ yếu gắn với một các bài toán toán tối ưu lồi. Trong nửa đầu thập niên 2000, phương pháp thống trị là phương pháp hạt nhân (kernel methods), như Máy Vector Hỗ trợ (Support Vector Machines). Vẻ đẹp của chúng là ở chỗ dẫn đến tối ưu hóa lồi. Có rất nhiều tính chất toán học đẹp có thể được rút ra từ giả thiết lồi, ví dụ nghiệm tối ưu của một hàm lồi sẽ là duy nhất và toàn cục. Nhưng hóa ra giả thiết hàm lồi hơi quá mạnh. Mạng nơ-ron, đặc biệt là mạng có chiều sâu, có hàm mục tiêu không lồi. Và do bản chất của tính không lồi, việc tìm nghiệm toàn cục là cực kỳ khó. Thường thì chúng ta chỉ có thể tìm được một số nghiệm cục bộ khá tốt. Nhưng rồi hóa ra chúng vẫn rất hữu ích trong thực tế.

Khoảnh khắc AlphaGo

Năm 2016 chứng kiến một mốc quan trọng trong lịch sử AI. Nhiều người trong các bạn có thể còn nhớ khoảnh khắc hệ thống AlphaGo đánh bại một trong những nhà vô địch cờ vây giỏi nhất, Lee Sedol. Cờ vây là một trò chơi cực kỳ khó với các kỹ thuật AI tiêu chuẩn dựa trên tìm kiếm như năm 1997, khi hệ thống cờ vua Deep Blue của IBM đánh bại Garry Kasparov, một trong những kỳ thủ cờ vua vĩ đại nhất. Lý do là với cờ vây, số bước đi tại mỗi thời điểm mà hệ thống phải tính trước quá lớn, ngay cả đối với siêu máy tính.

AlphaGo khác biệt ở chỗ nó sử dụng một kỹ thuật học máy mới, kết hợp giữa học tăng cường và học sâu để nhận dạng vị trí trên bàn cờ vây. AlphaGo được huấn luyện một phần trên dữ liệu có giám sát dựa trên các ván cờ trong quá khứ, cũng như từ việc tự chơi giữa hai hệ thống. Từ đây, AI đã thắng con người, đồng thời dã phát minh ra những cách chơi mới khiến các kỳ thủ bất ngờ.

Sự kiện AlphaGo khơi dậy sự quan tâm trên toàn thế giới, đặc biệt là ở Đông Á -- khắp Trung Quốc, Nhật Bản và Hàn Quốc. Trong những năm tiếp theo, hầu hết các quốc gia có năng lực công nghệ tiên tiến đều công bố Chiến lược Quốc gia về AI. Tôi nghĩ điều này một phần là do tác động của khoảnh khắc AlphaGo.

Phần mềm 2.0

Đến năm 2017, Học sâu đã tiến bộ đến mức một trong những kỹ sư AI giỏi nhất tên là Andrej Karpathy viết rằng, đã có một giai đoạn mới của phần mềm, gọi là 'Phần mềm 2.0'. Ông cho rằng từ nay trở đi phần mềm sẽ được viết bằng các tham số mạng nơ-ron. Ông đã đi trước thời đại của mình, nhưng với sự phát triển gần đây, có thể nói rằng với sự phổ biến của AI trong thực tế, thực sự rất nhiều phần mềm được viết bằng trọng số mạng nơ-ron như ông đã nói. Một sự phát triển khác là nhờ vào Code LLM, được giới thiệu 5 năm sau đó, là một loại mô hình ngôn ngữ lớn có thể giúp lập trình viên viết mã. Đó là một kịch bản khác của Software 2.0 vì chính mã được viết bởi LLM và LLM về cơ bản là mạng nơ-ron.

Transformer

Một yếu tố then chốt cho nhiều tiến bộ sau năm 2017 là Transformer, một kiến trúc được các kỹ sư Google phát minh để thay thế RNN. Transformer không có tính chất hồi quy, do đó có thể chạy song song. Cơ chế tương quan tầm xa của nó đảm bảo rằng các mẫu phức tạp có thể được học từ dữ liệu. Chẳng bao lâu sau, Transformer đã thống trị tất cả các hệ thống AI, cho gần như mọi lĩnh vực, ngoại trừ những hệ thống chạy trên thiết bị có dung lượng nhỏ. Chưa bao giờ chúng ta có sự hội tụ vào một kiến trúc duy nhất như vậy!