Thứ Ba, 25 tháng 3, 2025

Cờ vây và AlphaGo

 

 Cờ vây và AlphaGo

Cờ Vây là một trò chơi chiến lược đẹp và tinh tế có nguồn gốc từ Trung Quốc khoảng 3.000 năm trước. Người chơi lần lượt đặt những viên đá đen hoặc trắng trên một bàn cờ 19x19 với nỗ lực bao quanh nhiều lãnh thổ hơn đối thủ của họ. Mặc dù quy tắc đơn giản, Go lại cực kỳ phức tạp, với hơn 10 mũ 170 (1 theo sau là 170 số 0) cấu hình bàn cờ có thể có, nhiều hơn số nguyên tử trong vũ trụ. Người chơi Go được xếp hạng bằng các cấp kyu và dan, cùng hệ thống được sử dụng trong võ thuật. Người mới bắt đầu tiến bộ qua các cấp kyu, giảm dần khi trình độ chơi tăng lên cho đến khi một người chơi đạt 1 kyu. Những cấp này được theo sau bởi các cấp dan nghiệp dư, thường tăng từ 1 dan lên 6 hoặc 7 dan. Các người chơi Go chuyên nghiệp có một hệ thống xếp hạng riêng chạy từ 1 dan đến 9 dan.

Nhóm dự án AlphaGo đã làm gì?

Sau kết quả đó, chúng tôi đã thực sự đẩy nhanh mọi thứ. Khoảng 15 người khác đã tham gia vào dự án, những chuyên gia xuất sắc với nhiều kỹ năng đa dạng, và một số trong số họ được coi là tốt nhất thế giới trong lĩnh vực của mình, được tập hợp lại trong một nhóm mà chúng tôi gọi một cách nội bộ là 'Nhóm Tấn Công'. Điều này liên quan đến việc báo cáo cắt chéo, để mỗi người báo cáo ra ngoài các nhóm bình thường của họ, đặc biệt là cho dự án này. Nó giống như việc ra mắt một sản phẩm mặc dù vẫn đang trong giai đoạn nghiên cứu. Đà phát triển khi một dự án như thế này bắt đầu là vô cùng ấn tượng, và đó thực sự là một giai đoạn sáng tạo tuyệt vời.

Có những cột mốc và bạn có bảng xếp hạng để theo dõi sức mạnh ước lượng của chương trình (điểm Elo) ở mỗi bước đi.

Cột mốc đầu tiên là đánh bại các chương trình Go thủ công hàng đầu hiện tại: Zen và Crazy Stone. Cả hai chương trình đều mạnh ở mức độ nghiệp dư (khoảng 5 dan nghiệp dư), nhưng không có ai ở cấp độ chuyên nghiệp. Thực tế, một cách nổi tiếng, không có máy móc nào từng đánh bại một chuyên gia ở môn Go. Những bước tiến lớn cuối cùng trong Go máy tính đã xảy ra cách đây một thập kỷ, với việc sử dụng tìm kiếm cây Monte Carlo thay vì tìm kiếm alpha-beta, nhưng họ vẫn sử dụng các hàm đánh giá thủ công và chỉ cải thiện rất chậm trong vài năm qua. Đổi mới tiếp theo của chúng tôi là tạo ra một mạng nơ-ron thứ hai, được gọi là ‘Mạng Giá Trị’, học hỏi qua kinh nghiệm để ước tính xác suất thắng từ vị trí hiện tại. Chúng tôi kết hợp Mạng Chính Sách và Mạng Giá Trị với tìm kiếm cây Monte Carlo để tạo ra chương trình Go hoạt động hoàn chỉnh đầu tiên. Đến kinh ngạc, chúng tôi đạt được cột mốc đầu tiên chỉ 6 tháng sau kết quả ban đầu của mình, vì vậy chúng tôi có chương trình Go mạnh nhất thế giới vào thời điểm đó. AlphaGo tiếp tục cải thiện nhanh chóng với nhiều đào tạo hơn và sớm nó đã có thể đánh bại Aja, người mà bản thân cũng ở mức 6 dan nghiệp dư. Đây là một khoảnh khắc đặc biệt ý nghĩa đối với Aja vì anh đã đạt được ước mơ cả đời của mình là viết một chương trình Go có thể đánh bại anh!

Chúng tôi giờ đã sẵn sàng cho cột mốc thứ hai, đó là thách thức và trở thành chương trình đầu tiên đánh bại một người chơi chuyên nghiệp. Chúng tôi đã gửi email cho nhà vô địch châu Âu 3 lần Fan Hui, người hóa ra thực sự là một con người tuyệt vời và ấm áp, và cuối cùng trở thành cố vấn cho nhóm. Anh ấy sống ở Pháp nên có thể đến đây dễ dàng và chúng tôi có thể thử chơi với anh ấy đầu tiên trong bí mật. Chúng tôi đã thắng trận đó 5-0 và với điều đó đã trở thành chương trình đầu tiên từng đánh bại một chuyên gia ở Go. Như bạn có thể tưởng tượng, đó là một khoảnh khắc tuyệt vời, một khoảnh khắc mà sẽ được ghi vào lịch sử, và từ đó chúng tôi đã gửi một bài báo đến tạp chí khoa học Nature, ghi lại những kết quả đến nay của chúng tôi.

Chúng tôi sau đó chuyển sự chú ý đến bước thứ ba và cuối cùng, cố gắng đánh bại một Nhà Vô Địch Thế Giới. Chúng tôi muốn một ai đó đã được xác lập ở vị trí hàng đầu trong trò chơi trong một thời gian dài, nhưng vẫn đang ở đỉnh cao của họ. Cuối cùng, chúng tôi đã quyết định thách thức đại sư 9 dan huyền thoại Hàn Quốc Lee Sedol, người đã giành được 18 chức vô địch thế giới, và được công nhận là người chơi vĩ đại nhất trong thập kỷ qua.

Chúng tôi muốn công bố trận đấu cùng lúc với việc công bố bài báo Nature, nhưng đây là một rủi ro lớn vì vào thời điểm công bố, chúng tôi biết rằng AlphaGo vẫn yếu hơn Lee Sedol rất nhiều, và chỉ còn khoảng ba tháng để chuẩn bị. Tuy nhiên, đồ thị hiệu suất đang tăng lên không ngừng, và trừ khi nó gặp lý do nào đó, chúng tôi dự đoán nó sẽ vượt qua để mạnh hơn Lee Sedol trước trận đấu.

Lịch sử cho thấy sự tiến bộ của nó đã tiếp tục, nhưng bạn đánh giá cơ hội của AlphaGo ra sao trước trận đấu đó?

Lee Sedol khá tự tin, và dự đoán một chiến thắng 5-0 hoặc 4-1 cho mình, vì anh đã xem các trận đấu của Fan Hui mà chúng tôi công bố trong Nature. Trong bộ phim tài liệu – AlphaGo – được thực hiện về các trận đấu, anh nói rằng anh tin rằng trực giác của con người vẫn 'quá vượt trội so với AI để có thể bắt kịp'.

Vào thời điểm đó, AlphaGo đã mạnh hơn một chuyên gia 2 dan, nhưng nó không gần với sức mạnh của anh ấy. Fan Hui là một người chơi trong top 500. Lee Sedol là một chuyên gia 9-dan, và là một trong những người chơi vĩ đại nhất mọi thời đại, anh ấy chắc chắn đã đánh bại phiên bản AlphaGo mà chúng tôi đã chọi với Fan Hui. Tôi đoán anh ấy khá hợp lý khi nghĩ: ‘Nó thực sự có thể cải thiện được bao nhiêu khi mới chỉ cách đây ba đến bốn tháng?’ Có thể một vài cấp độ, nhưng chắc chắn không phải là xếp hạng 7 dan!

Phần của chúng tôi thì khá tự tin nhưng cũng lo lắng. Đến thời điểm trận đấu, các thử nghiệm nội bộ của chúng tôi cho biết chương trình nên mạnh hơn Lee Sedol tổng thể, nhưng có một mức độ không chắc chắn cao. AlphaGo đã được đánh giá bằng cách thử nghiệm nó với các phiên bản trước đó của chính nó, nên về mặt học máy, nó có thể đã quá khớp, hay nói cách khác, nó có thể đã học cách đánh bại chính nó rất hiệu quả, nhưng theo cách nào đó, khả năng đó có thể không tổng quát hóa cho một đối thủ hoàn toàn mới, đặc biệt là một người nổi tiếng về sự sáng tạo và tinh thần chiến đấu.

Thậm chí còn đáng lo ngại hơn, chúng tôi cũng biết rằng AlphaGo gặp phải những vấn đề mà chúng tôi gọi là ‘nguyên nhân ảo tưởng’. Chúng tôi không biết chính xác lý do tại sao, nhưng trong một số tình huống chiến đấu cực kỳ phức tạp, nơi mà thời gian chính xác là quan trọng trong một chuỗi các nước đi rất dài, đôi khi hệ thống sẽ đánh giá sai vị trí, và do đó sẽ đánh giá sai vị trí là có lợi cho nó, khi thực tế nó hoàn toàn đang thua.

Chúng tôi đã thử hàng chục cách để khắc phục vấn đề, nhưng chúng tôi không thể sửa kịp thời cho trận đấu (chúng tôi đã quản lý để giải quyết vấn đề này trong các phiên bản AlphaGo sau này). Các thử nghiệm của chúng tôi cho thấy loại vị trí này sẽ xảy ra với tần suất khoảng một lần trong mỗi năm ván, và dựa trên điều này, chúng tôi dự đoán chiến thắng 4-1. Thật không thể tin nổi, chính xác là vậy đã xảy ra, với Lee Sedol quản lý để giành chiến thắng trong ván bốn bằng một nước đi thiên tài bất ngờ đến nỗi nó đã kích hoạt một trong những đánh giá sai này.

Và vì vậy chúng tôi đã thắng trận đấu lịch sử này, gây sửng sốt cho các chuyên gia AI và Go, với nhiều người tuyên bố rằng thành tựu này ‘được thực hiện trước một thập kỷ’. Tất nhiên chiến thắng là mục tiêu chính, nhưng thực ra điều quan trọng nhất là cách mà AlphaGo đã thắng. Trong trận đấu, AlphaGo đã thực hiện nhiều nước đi rất sáng tạo, độc đáo và đẹp mắt, nổi tiếng nhất là nước đi 37 trong ván 2, đã đảo ngược hàng thế kỷ tri thức được tiếp nhận. Nó không chỉ đơn giản là nhai lại hoặc sao chép kiến thức của con người. Sau đó, Fan Hui và nhiều bạn bè của chúng tôi trong thế giới Go đã nói với chúng tôi điều này đã cách mạng hóa cách chơi của trò chơi, và nhiều cuốn sách hiện đã được viết về phong cách chơi độc đáo của AlphaGo.

Nghe có vẻ như sự phát triển của AlphaGo diễn ra tương đối suôn sẻ?

Tiến trình thường trông mượt mà khi nhìn lại, nhưng vào thời điểm đó, kết quả của từng bước là hoàn toàn không chắc chắn. Vài tháng vào dự án, tôi nhớ đã đề cập với Aja rằng chúng tôi nên đặt mục tiêu một ngày nào đó đối đầu với một chuyên gia 9-dan, và anh ấy nghĩ tôi đã hoàn toàn mất trí! Nhưng đó là cách mà nghiên cứu tiên tiến luôn diễn ra: nếu bạn biết chắc chắn một lĩnh vực nghiên cứu sẽ đi theo hướng nào, thì đó thực sự không phải là nghiên cứu. Đó là điều thú vị về nghiên cứu khoa học, mỗi ngày bạn thức dậy và bước vào sự chưa biết.

Cách tiếp cận AI của bạn có thay đổi khi bạn phát triển AlphaGo và AlphaZero không?

Thật thú vị nếu bạn lùi lại và nhìn vào toàn bộ công việc. Đầu tiên, chúng tôi bắt đầu với AlphaGo và chúng tôi đã cố gắng đánh bại trò chơi mà mọi người nghĩ là không thể phá vỡ cho AI. Sau đó, một khi chúng tôi đạt được điều đó, chúng tôi đã cố gắng làm cho hệ thống ngày càng hiệu quả và tổng quát hơn.

AlphaGo ban đầu được đào tạo bằng cách sử dụng hàng trăm nghìn trò chơi nghiệp dư của con người để giúp nó phát triển một sự hiểu biết về cách chơi hợp lý của con người trông như thế nào. Chúng tôi cũng đã xây dựng một lượng rất nhỏ thông tin cụ thể về Go, không phải những điều lớn như quy tắc hay heuristics, mà là những điều rất cấp cao như bàn cờ có đối xứng bốn chiều.

AlphaGo Zero là giai đoạn tiếp theo trong sự tiến hóa của nó, mà bạn có thể nghĩ đến như AlphaGo nhưng không có bất kỳ cái nạng nào như vậy. Chúng tôi đã loại bỏ mọi kiến thức miền và xây dựng một hệ thống học cách chơi trò chơi tự nó, bắt đầu từ việc chơi hoàn toàn ngẫu nhiên mà không có trò chơi của con người làm đầu vào. Thật tuyệt vời, điều đó cũng đã hoạt động, vì vậy giai đoạn tiếp theo là xây dựng AlphaZero, cũng học từ việc tự chơi ngẫu nhiên nhưng có thể tổng quát hóa ngoài Go đến mọi loại trò chơi thông tin hoàn hảo hai người, bao gồm tất nhiên cờ vua!

Khi bạn quyết định xây dựng AlphaZero – một hệ thống tổng quát hơn AlphaGo – có phải bạn đã tích lũy được nhiều sự tự tin hơn trong cách làm điều đó không? Hay bạn đã phát hiện ra một số kỹ thuật mới trong suốt quá trình này?

Đó là cả hai điều đó. Đó là lý do tại sao nó dễ hơn nhiều khi đi theo hơn là đổi mới. Khi bạn hạ cánh lên mặt trăng, thì những người khác cũng có thể hạ cánh lên mặt trăng. Nó cũng tương tự trong khoa học: mọi thứ không bao giờ hoạt động lần đầu tiên. Câu hỏi đặt ra là: tôi có nên cố gắng hơn nữa hay đây chỉ là một bức tường ngăn cản? Nếu ai đó đã làm được trước đó thì chỉ còn là vấn đề về nỗ lực và ý chí, vì bạn đã biết rằng điều đó chắc chắn là khả thi.

Ngược lại, khi điều gì đó chưa biết, thì không chỉ là vấn đề về ý chí. Bởi vì đôi khi, điều đúng đắn nên làm là dừng lại và làm điều gì đó khác. Nếu bạn chỉ muốn nó, bạn có thể kết thúc với việc làm điều sai trong 30 năm và không đạt được tiến bộ nào.

Nếu không có niềm tin và sự kiên trì, bạn không thể đạt được bất cứ điều gì trong khoa học, nhưng bạn cũng cần biết khi nào bạn đang đi sai hướng. Đó là điều tôi đã học được thông qua những trải nghiệm trong sự nghiệp trước đó của mình. Đây là một điều rất khó để dạy. Nó giống như một mùi hương bạn cảm nhận được, một hương vị. Họ thường nói về những nhà khoa học: những nhà khoa học giỏi nhất có vị giác thực sự tốt. Ý họ là họ biết cách tập trung vào vấn đề đúng và độ phức tạp của vấn đề đó cần giải quyết tiếp theo. Họ biết câu hỏi đúng để đặt ra.

Các chương trình chơi game của bạn được biết đến với phong cách sáng tạo và tấn công. Bạn là loại người chơi game nào?

Dạo này tôi là một người chơi game đa năng hơn. Sự quen thuộc với nhiều loại game có nghĩa là có những chiến lược và mô típ bạn nhận ra và sau đó bạn bắt đầu thấy tất cả các mối liên hệ giữa các game khác nhau, điều này có thể hữu ích. Nó cũng có nghĩa là bạn có thể học các game mới rất nhanh.

Trong hầu hết các game, tôi thường có phong cách khá kiểm soát và điềm tĩnh, và tôi luôn thích có một cái gì đó dự trữ trong trường hợp có điều gì bất ngờ xảy ra!

Các game có thể giúp mọi người trong cuộc sống thực không?

Đó là điều thú vị khác về các game. Bạn có thể coi chúng như một phòng tập cho trí óc. Trong cuộc sống, những khoảnh khắc quyết định lớn chỉ xảy ra một cách hiếm hoi và thường thì chúng cực kỳ quan trọng. Bạn thực hành kỹ năng ra quyết định của mình dưới áp lực ở đâu? Trong cuộc sống bạn thường không có cơ hội thứ hai. Các game cung cấp một môi trường huấn luyện an toàn, nơi bạn có thể nhận phản hồi ngay lập tức về hiệu suất của mình và sau đó sử dụng thông tin đó để cải thiện. Sau đó, bạn có thể rút ra tất cả những trải nghiệm và huấn luyện đó khi đến lúc phải đối mặt với sự kiện thực sự.

Tôi thường đùa rằng nếu tôi thiết kế một khóa học MBA, tôi sẽ thiết kế xung quanh các game, nơi bạn có một chuyên gia thế giới trong từng game chính khác nhau và bạn học các meta-kỹ năng được rèn luyện bởi những game đó.

AlphaZero có thể được sử dụng để dạy con người không?

Có những điều mà máy móc làm mà bạn không thể học được. Nó phụ thuộc vào lý do tại sao chúng tốt hơn trong việc làm những điều đó. Hãy lấy ví dụ về máy tính chơi cờ. Các chương trình hàng đầu đều mạnh hơn người chơi cờ giỏi nhất. Chúng tôi có thể phân tích bao nhiêu trận đấu của họ tùy thích, nhưng chúng tôi sẽ không trở nên mạnh hơn. Lý do là vì họ mạnh hơn vì họ tính toán nhiều đường đi hơn và không mắc những sai lầm chiến thuật. Chúng tôi, là những người chơi cờ, không cố ý mắc sai lầm chiến thuật, chỉ là não bộ của chúng tôi không phát triển để thực hiện loại tính toán đó. Vì vậy, những giải pháp đó có sự giúp đỡ hạn chế cho chúng tôi. Tuy nhiên, điều chúng tôi tìm thấy với AlphaZero là một số sự cải tiến hoặc tiến bộ thực sự mang tính chiến lược, và đó là điều chúng tôi có thể tích hợp vào cách chơi của mình. Các người chơi Go đã tìm thấy điều đó với AlphaGo và đã tích hợp một số chiến lược của nó vào các game của họ. Tôi nghĩ điều tương tự sẽ xảy ra với AlphaZero và cờ. Có thể cuốn sách này là khởi đầu cho điều đó!

Liên quan đến điều này, chúng tôi cũng đang cố gắng xây dựng các công cụ phân tích và hình dung cung cấp cái nhìn sâu sắc về cách những hệ thống này đưa ra quyết định và cho phép chúng tôi hiểu rõ hơn về những yếu tố mà chúng đang cân nhắc. Công việc trong lĩnh vực này vẫn đang ở giai đoạn sơ khai nhưng tôi nghĩ chúng ta sẽ thấy những bước tiến lớn trong lĩnh vực này, và vì vậy trong sự hiểu biết của chúng ta về những hệ thống này, trong vài năm tới.

Có phải khó để phân tích kết quả (chẳng hạn như từ AlphaZero) vì các hệ thống rất phức tạp? Nó rất phức tạp, nhưng chắc chắn không phức tạp hơn não bộ. Có lẽ ít phức tạp hơn rất nhiều vì những hệ thống này vẫn nhỏ hơn rất nhiều về số lượng nơ-ron và kết nối.

Chúng tôi cũng có quyền truy cập và kiểm soát hoàn toàn mọi thứ mà máy đang làm từng khoảnh khắc, điều mà chúng tôi thậm chí không có với hình ảnh não. Vì vậy, lập luận của tôi là, sự hiểu biết của chúng ta nên ít nhất là tốt như với bộ não, và tôi sẽ lập luận rằng chúng ta nên ở vị trí tốt hơn so với khi làm việc với bộ não, vì chúng tôi có tất cả các quyền kiểm soát bổ sung này về những gì hệ thống đang làm.

Những khác biệt chính giữa cách mà con người học cờ vua và cách mà AlphaZero học là gì?

Mọi người có khả năng áp dụng kiến thức trừu tượng từ nhiều nguồn khác nhau, bao gồm sách vở, học từ giáo viên, hoặc thậm chí xem các trận đấu của AlphaZero.

Một người không cần phải chơi hàng triệu trận đấu để học, nhưng trải nghiệm thô này là cách duy nhất mà AlphaZero có thể học. Nó không thể được dạy và không thể đọc sách, nó phải học từ các nguyên lý cơ bản.

Nhưng chúng tôi đang cố gắng xây dựng những cỗ máy có khả năng học các khái niệm hoặc kiến thức trừu tượng. Không ai trên thế giới đã giải quyết được điều đó, đó là một trong những thách thức lớn tiếp theo trong AI.

Các kỹ thuật bạn đã sử dụng cho AlphaZero có thể áp dụng trong các lĩnh vực khác không?

Cuối cùng, toàn bộ mục tiêu của việc xây dựng các hệ thống học tập tổng quát như AlphaZero là để chúng có thể được áp dụng theo nhiều cách để tạo ra các giải pháp cho các vấn đề thế giới thực sẽ mang lại lợi ích lớn cho mọi người trong xã hội. Các trò chơi là một nền tảng rất tiện lợi để thử nghiệm AI. Theo ý kiến của tôi, chúng là môi trường thử nghiệm hoàn hảo để phát triển và thử nghiệm các thuật toán AI, và đó là lý do tại sao chúng tôi thích sử dụng chúng - từ trò chơi trên bàn đến trò chơi điện tử và môi trường ảo.

Có một số lượng gần như không giới hạn các thứ mà AI tổng quát có thể được áp dụng, nhưng đam mê cá nhân của tôi là sử dụng những loại hệ thống AI này để giúp các nhà khoa học đạt được những bước đột phá và khám phá nghiên cứu quan trọng một cách nhanh chóng, trong những lĩnh vực mà chúng ta cần tiến bộ khẩn cấp như khoa học khí hậu, khoa học vật liệu và khám phá thuốc. Tôi tin rằng học máy và AI có một vai trò lớn trong việc tăng tốc khoa học và chúng tôi muốn dẫn đầu trong lĩnh vực đó.

Có những cơ hội nào để áp dụng AI trong các lĩnh vực khác?

Có rất nhiều cơ hội để áp dụng AI vào một số lĩnh vực nhất định. Nghĩ đến các lĩnh vực như chăm sóc sức khỏe, logistics, năng lượng, vận tải, giáo dục, bảo hiểm, robot và nhiều lĩnh vực khác.

Tôi tin rằng có nhiều doanh nghiệp trị giá hàng tỷ đô la có thể được xây dựng bằng cách kết hợp chuyên môn của các lĩnh vực hiện có và tối ưu hóa nó với những gì bây giờ tương đối là AI có sẵn.

Chúng tôi đã có rất nhiều thành công khi áp dụng những loại kỹ thuật này. Ví dụ, chúng tôi đã sử dụng các ý tưởng tương tự như AlphaZero để kiểm soát các hệ thống làm mát trong các trung tâm dữ liệu khổng lồ của Google, tiết kiệm một lượng lớn năng lượng mà họ sử dụng, điều này rất có giá trị về mặt thương mại trong việc tiết kiệm tiền, và cũng rất tốt cho môi trường.

Có những công cụ nào dành cho một người yêu thích nghiệp dư để bắt đầu trong AI?

Có một cộng đồng mã nguồn mở lớn và bạn có thể tải xuống miễn phí hầu hết tất cả các công cụ thư viện được xây dựng bởi các công ty lớn và thực hiện những điều khá ấn tượng ngay từ đầu. Cũng có những cuốn sách tốt và hàng tấn khóa học trực tuyến tuyệt vời.

Nếu bạn đủ động lực và có kỹ năng toán học và lập trình tốt, thì bạn có thể lao vào điều đó - bạn có thể thử nghiệm trong lĩnh vực bảo hiểm, Natasha! Còn rất nhiều việc để làm - đây thực sự là một thời điểm thú vị!

Nếu bạn có thể đạt được một điều gì đó trong AI, điều đó sẽ là gì?

Tôi nghĩ AI tổng quát, mà tôi đã dành toàn bộ công việc của đời mình cho nó, sẽ là công nghệ quan trọng nhất mà nhân loại từng phát minh ra. Có rất nhiều vấn đề trên thế giới mà vẫn chưa thể giải quyết, từ biến đổi khí hậu đến các bệnh như Alzheimer và các vấn đề kinh tế vĩ mô. Ở mọi nơi chúng ta nhìn thấy đều có những thách thức lớn và phức tạp cho xã hội, và tốc độ mà chúng ta có thể giải quyết những vấn đề này sẽ ảnh hưởng đến cuộc sống và sự phồn thịnh của hàng tỷ người.

Đây là nơi mà tôi tin rằng AI có thể - và sẽ - giúp xã hội theo một cách sâu sắc. AI là giải pháp tổng thể cho tất cả những vấn đề này. AI chung sẽ là một công cụ mà sẽ đóng vai trò như một phép nhân cho trí tuệ con người, cho phép chúng ta nhanh chóng khám phá kiến thức mới và tiến bộ đối với những thách thức phức tạp này với tốc độ mà chúng ta chưa từng thấy trước đây.

Trích trong quyển "Game Changer" của Matthew Sadler và Natasha Regan.

 

Thứ Ba, 18 tháng 3, 2025

Hassabis và DeepMind

 

Hassabis và DeepMind

CEO của Google DeepMind, Demis Hassabis, từng là một kỳ thủ cờ vua cuồng nhiệt khi còn trẻ và là một thần đồng thực thụ. Khi còn là một thiếu niên, anh đã dùng một phần tiền thưởng từ các giải đấu để mua chiếc máy tính đầu tiên của mình, và không lâu sau đó, anh bắt đầu tự tạo ra các chương trình của riêng mình.

Hassabis đồng sáng lập DeepMind vào năm 2010. Ngay từ đầu, DeepMind đã tập trung vào học máy và trí tuệ nhân tạo, kết hợp với những hiểu biết từ khoa học thần kinh và các tiến bộ mới trong phần cứng máy tính. Trong phần giới thiệu của cuốn sách Game Changer (2019), một tác phẩm chuyên sâu về phong cách chơi cờ của AlphaZero, Hassabis đã trình bày tham vọng của công ty mình:

"Xây dựng các hệ thống thông minh có thể tự học cách giải quyết bất kỳ nhiệm vụ phức tạp nào, và sau đó sử dụng công nghệ này để tìm ra giải pháp cho một số thách thức lớn nhất của xã hội và những câu hỏi chưa có lời giải."

Hassabis đã nhiều lần tuyên bố trong các cuộc phỏng vấn rằng ông muốn "giải quyết trí tuệ", và sau đó sử dụng trí tuệ "để giải quyết mọi vấn đề khác."

Thành công đáng chú ý đầu tiên của DeepMind đến vào tháng 12 năm 2013, khi thuật toán học sâu Deep Q-Network (DQN) đạt được điểm số cấp chuyên gia trong các trò chơi Atari, chỉ bằng cách tự học từ các pixel thô trên màn hình mà không cần bất kỳ hướng dẫn nào.

Một năm sau khi Google (nay là Alphabet) mua lại DeepMind vào năm 2014 với giá được cho là 400 triệu bảng Anh (650 triệu USD), công ty của Hassabis đã đạt được một bước đột phá còn lớn hơn. Thuật toán mạng nơ-ron AlphaGo đã trở thành cỗ máy đầu tiên đánh bại một nhà vô địch thế giới trong trò chơi cờ vây (Go)—một thành tựu mà theo các chuyên gia, đã đến sớm hơn hàng thập kỷ so với dự đoán.

Vì cờ vây thậm chí còn phức tạp hơn cờ vua, tạo ra một động cơ chơi ở cấp độ con người mạnh mẽ người chơi thậm chí còn khó khăn hơn. Một hàm đánh giá là khó xây dựng vì có nhiều nước đi có thể có  khiến cho việc sử dụng phép tính brute-force trở nên khó khăn hơn, loại DeepMind đã tiếp cận thử thách này theo một cách khác biệt so với các chương trình cờ vây hiện có (và AlphaGo nhanh chóng đánh bại những chương trình đó trước khi đối đầu với con người). AlphaGo sử dụng mạng nơ-ron sâu, một phương pháp trong trí tuệ nhân tạo giúp máy tính xử lý dữ liệu theo cách lấy cảm hứng từ bộ não con người. Giống như não bộ, nó sử dụng các nút kết nối hoặc nơ-ron trong một cấu trúc phân tầng. Các mối quan hệ toán học giữa các lớp này liên tục được cập nhật trong quá trình huấn luyện dữ liệu.

Trong trường hợp này, AlphaGo được đào tạo trên một lượng lớn dữ liệu gồm các ván cờ vây của các kỳ thủ chuyên nghiệp, cho phép nó học hỏi từ kiến thức và mô hình chơi của con người.

Một khía cạnh quan trọng khác là học tăng cường (reinforcement learning): AlphaGo đã chơi hàng loạt ván đấu với các phiên bản khác của chính nó, nhờ đó thu thập dữ liệu và dần cải thiện chiến lược của mình theo thời gian. (Mạng nơ-ron có tính linh hoạt rất cao, và thông qua huấn luyện, chúng có thể học để thực hiện nhiều nhiệm vụ khác nhau, chẳng hạn như nhận diện mèo và chó bằng cách phân tích hàng nghìn hình ảnh có nhãn.)

Một kỹ thuật đổi mới khác là sử dụng mạng giá trị (value network) để giảm độ sâu của cây tìm kiếm và mạng chính sách (policy network) để giảm độ rộng của quá trình tìm kiếm, giúp đánh giá vị trí và đưa ra quyết định hiệu quả dựa trên những gì nó đã học được. AlphaGo cũng được chạy trên hạ tầng phần cứng mạnh mẽ, bao gồm nhiều GPU hiệu suất cao, giúp xử lý nhanh chóng tất cả các nước đi và vị trí có thể xảy ra.

Một yếu tố góp phần vào thành công của AlphaGo thực chất không phải là điều mới mẻ: đó là việc sử dụng Monte Carlo Tree Search (MCTS)—một thuật toán tìm kiếm heuristic mô phỏng các chuỗi nước đi ngẫu nhiên trong cây tìm kiếm, giúp cải thiện khả năng đánh giá nước đi tốt nhất.

Như thường thấy trong lĩnh vực trí tuệ nhân tạo, sẽ đến lúc những con người giỏi nhất phải được thách thức và đánh bại. Cờ vây đã trải qua khoảnh khắc tương tự trận đấu giữa Kasparov và Deep Blue vào tháng 5 năm 2016, khi một trận đấu gồm năm ván diễn ra tại Seoul, Hàn Quốc giữa AlphaGo và kỳ thủ cờ vây số một Hàn Quốc Lee Sedol—một trong số ít người trên thế giới đạt đến cấp bậc cao nhất, 9 dan.

Trước trận đấu, Lee Sedol rất tự tin, tuyên bố rằng anh mong đợi chiến thắng mà không để thua một ván nào. Nhưng kết quả lại hoàn toàn khác: anh thua liên tiếp ba ván đầu tiên, thắng một ván, nhưng lại thua ván cuối cùng, chấp nhận thất bại 1-4. Ba năm rưỡi sau đó, Lee Sedol tuyên bố giải nghệ, với lý do:

"Ngay cả khi tôi trở thành số một, vẫn có một thực thể mà tôi không thể đánh bại."

Bên cạnh việc hủy diệt một kỳ thủ đẳng cấp thế giới—một cú sốc toàn cầu—phong cách chơi của AlphaGo cũng gây kinh ngạc đến mức nhiều cuốn sách đã được viết về chủ đề này (điều tương tự cũng sẽ xảy ra với AlphaZero sau này). Đặc biệt, nước đi thứ 37 của AlphaGo trong ván đấu thứ hai đã đi vào lịch sử như một khoảnh khắc mang tính cách mạng. Demis Hassabis viết:

"Đó là một nước đi không tưởng đến mức những kỳ thủ cờ vây hàng đầu thế giới đang bình luận trực tiếp đã nghĩ rằng chắc chắn có sai sót nào đó. Nhưng hơn một trăm nước đi sau, quân cờ đó lại ở đúng vị trí chiến lược hoàn hảo để quyết định kết quả trận đấu."

Sự ra đời của AlphaZero

Sau thành công vang dội với cờ vây, bước tiếp theo của DeepMind là phát triển một hệ thống có tính tổng quát: họ muốn tạo ra một chương trình có thể đạt đẳng cấp siêu nhân trong bất kỳ trò chơi hai người chơi, thông tin hoàn hảo nào.

Tháng 12 năm 2017, nhóm nghiên cứu DeepMind công bố một bản thảo nghiên cứu, trong đó tiết lộ rằng thuật toán mới nhất của họ, AlphaZero, có thể đạt đến trình độ siêu nhân mà không cần học hỏi từ con người—nó chỉ đơn giản là tự chơi với chính mình trong ba trò chơi khác nhau:

  • Cờ vua (chess),
  • Shogi (cờ Nhật Bản),
  • Cờ vây (Go).

Cũng giống như AlphaGo, phong cách chơi cờ vua của AlphaZero đã gây chấn động thế giới. Nó chơi tấn công táo bạo, hy sinh quân để đưa trận đấu vào những thế cờ cực kỳ phức tạp—phong cách của những nhà vô địch huyền thoại như Mikhail Tal hay Garry Kasparov. Kasparov bình luận:

"Tôi rất thích thú khi thấy AlphaZero chơi theo phong cách tấn công và hy sinh đầy tính sáng tạo. Không chỉ vì nó giống với phong cách của tôi, mà còn vì nó có thể chơi như vậy và giành chiến thắng trước một chương trình cờ vua chính xác đến đáng sợ."

Một điểm đáng chú ý là AlphaZero chỉ xét khoảng 80.000 vị trí mỗi giây, trong khi Deep Blue năm 1997 có thể xử lý 200 triệu vị trí mỗi giây. Điều này có nghĩa là thuật toán của AlphaZero phải cực kỳ hiệu quả, thay vì dựa vào sức mạnh tính toán thuần túy.

Ngay cả các nhà nghiên cứu tại DeepMind cũng gặp khó khăn trong việc giải thích chính xác cách AlphaZero "suy nghĩ". Chương trình có một hàm đánh giá (evaluation function), nhưng nó không dựa trên bất kỳ dữ liệu đầu vào từ con người, mà chỉ từ trải nghiệm chơi cờ của chính nó. Một trong những nhà phát triển nhận xét:

"Cách mà AlphaZero đánh giá một vị trí cờ vua vẫn là một bí ẩn."

Một người khác mô tả AlphaZero như thể nó đang phát triển một "trực giác" về cờ vua.

Sự trở lại của phương pháp chọn lọc trong cờ vua máy tính

Rõ ràng, cách tiếp cận của máy tính cờ vua đã đi một vòng tròn. Alan TuringClaude Shannon—những người tiên phong trong lĩnh vực này—đã biết rằng máy tính thời đó không thể thành công nếu chỉ đơn thuần tính toán tất cả nước đi có thể. Vì vậy, họ đề xuất tìm kiếm chọn lọc (Type B Search)—tập trung vào những nước đi có tiềm năng nhất.

Tuy nhiên, họ không thể lường trước được sự phát triển nhanh chóng của sức mạnh tính toán, dẫn đến việc chiến lược dùng brute-force (tìm kiếm toàn diện) trở thành phương pháp chủ đạo trong nhiều thập kỷ, được sử dụng trong hầu hết các chương trình cờ vua mạnh nhất như:

  • Belle (Ken Thompson),
  • Deep Blue (IBM),
  • Và nhiều chương trình khác sau đó.

Tuy nhiên, với AlphaZero, có vẻ như trí tuệ nhân tạo đã quay trở lại với hướng tiếp cận ban đầu của Turing và Shannon—tập trung vào chọn lọc thông minh, thay vì chỉ dựa vào sức mạnh tính toán thô ráp.

Và bây giờ, dù chạy trên phần cứng cực kỳ tiên tiến, AlphaZero tìm kiếm nước đi theo cách thông minh hơn bao giờ hết, đúng như những gì Turing và Shannon từng hình dung.

Từ AI chơi cờ đến AI giải quyết vấn đề khoa học

Có một điểm tương đồng khác với thời kỳ đầu của trí tuệ nhân tạo. Turing và Shannon từng khẳng định rằng việc phát triển một chương trình cờ vua mạnh không phải là mục tiêu cuối cùng, mà chỉ là bước đệm để giải quyết những bài toán có ý nghĩa lớn hơn. Đây chính là triết lý mà Demis Hassabis cùng các đồng nghiệp tại DeepMind đang theo đuổi: từng bước chuyển từ các thuật toán chơi game dựa trên học bắt chước sang các hệ thống học tự giám sát hoàn toàn.

  • AlphaGo học chơi cờ vây bằng cách quan sát các ván đấu của con người.
  • AlphaGo Zero tiến xa hơn khi chỉ tự chơi với chính mình, không cần dữ liệu từ con người.
  • AlphaZero mang tính tổng quát hơn, tự học cách chơi nhiều trò chơi chỉ bằng cách tự đấu với chính nó.
  • MuZero (ra mắt năm 2019) thậm chí còn có thể học các trò chơi mà không cần biết trước luật chơi. Không chỉ tiếp tục thống trị cờ vua, shogi và cờ vây, MuZero còn tự học 57 trò chơi Atari từ con số 0.

Thêm một bước đột phá nữa đến vào cuối năm 2022, khi DeepNash được công bố. Đây là AI mới nhất của DeepMind, có thể chơi Stratego ở cấp độ chuyên gia. Nó thắng gần như tất cả các trận đấu với AI khác và đạt tỷ lệ thắng 84% khi đấu với con người trong các trận đấu trực tuyến. Điều đặc biệt là Stratego là một trò chơi có thông tin không hoàn hảo—tức là người chơi không biết vị trí chính xác của quân cờ đối phương. Đây là lần đầu tiên AI làm tốt trong một môi trường có tính bất định cao.

DeepMind: Đưa AI vào ứng dụng thực tế

DeepMind đã ứng dụng kinh nghiệm từ các trò chơi bàn cờ và trò chơi máy tính để phát triển những hệ thống học tập tự giám sát ngày càng trừu tượng hơn, và triển khai chúng vào nhiều lĩnh vực khác nhau trong xã hội.

  • Các thuật toán tương tự như AlphaZero đã được sử dụng để tối ưu hóa hệ thống làm mát trong các trung tâm dữ liệu khổng lồ của Google, giúp tiết kiệm lượng lớn năng lượng.
  • Nhưng thí dụ quan trọng nhất, theo đúng triết lý giải quyết vấn đề lớn, chính là AlphaFold—chương trình AI của DeepMind có thể dự đoán cấu trúc 3D của protein.

AlphaFold: Đột phá khoa học về sinh học và y học

Hassabis mô tả AlphaFold như

“Định lý cuối cùng của Fermat trong sinh học”.

Thuật toán này phân tích chuỗi axit amin của protein, sau đó dùng mạng nơ-ron học sâu để dự đoán cách chuỗi này gấp lại thành cấu trúc 3D. Nhờ vậy, AlphaFold đã cung cấp cho giới khoa học các hiểu biết vô giá về chức năng và tương tác của protein. Ứng dụng của nó rất rộng lớn:
Hỗ trợ phát triển thuốc mới,
Giúp chuẩn bị cho các đại dịch trong tương lai,
Nâng cao hiểu biết về cơ thể con người.

Tham vọng của DeepMind: Trí tuệ nhân tạo tổng quát (AGI)

Hassabis cho rằng AlphaFold là hệ thống phức tạp và có ý nghĩa nhất mà DeepMind từng phát triển, nhưng tham vọng của ông không có giới hạn. Ông đang hướng đến những thách thức khoa học lớn nhất hiện nay, như:

  • Siêu dẫn ở nhiệt độ phòng,
  • Tế bào ảo (virtual cells),
  • Mô phỏng lượng tử (quantum simulation).

Mục tiêu cuối cùng của DeepMind?

🎯 Phát triển Trí tuệ Nhân tạo Tổng quát (AGI)—một hệ thống có thể học và thực hiện bất kỳ nhiệm vụ trí tuệ nào mà con người có thể làm.

Cuộc đua AGI: Google DeepMind vs. OpenAI

Mặc dù ChatGPT của OpenAI là AI đầu tiên đạt sự nổi tiếng toàn cầu, nhưng DeepMind, Meta, Microsoft, Amazon và IBM cũng đang phát triển mô hình ngôn ngữ lớn (LLM) của riêng mình—được coi là một bước tiến lớn hướng đến AGI.

Hệ thống AI của DeepMind, mang tên Gemini, ra mắt lần đầu vào tháng 12/2023. Gemini sử dụng các kỹ thuật từ AlphaGo để nâng cao khả năng của mình.

Lời tạm biệt của Stephen Hawking

Trong một buổi phỏng vấn podcast với Lex Fridman vào tháng 7/2022, Hassabis kể về cuộc gặp cuối cùng của ông với Stephen Hawking trước khi nhà vật lý lý thuyết này qua đời. Hawking rất quan tâm đến công việc của DeepMind, và hai người đã trò chuyện trong nhiều giờ.

Trước khi chia tay, Hawking nói với Hassabis một câu đầy ẩn ý:

“Chúc anh may mắn, nhưng đừng may mắn quá.”

Trích dịch trong quyển "Cuộc cách mạng cờ vua từ thế giới cổ đại đến kỷ nguyên số"