Hassabis và DeepMind
CEO của Google DeepMind, Demis Hassabis, từng là một kỳ thủ cờ vua cuồng nhiệt khi còn trẻ và là một thần đồng thực thụ. Khi còn là một thiếu niên, anh đã dùng một phần tiền thưởng từ các giải đấu để mua chiếc máy tính đầu tiên của mình, và không lâu sau đó, anh bắt đầu tự tạo ra các chương trình của riêng mình.
Hassabis đồng sáng lập DeepMind vào năm 2010. Ngay từ đầu, DeepMind đã tập trung vào học máy và trí tuệ nhân tạo, kết hợp với những hiểu biết từ khoa học thần kinh và các tiến bộ mới trong phần cứng máy tính. Trong phần giới thiệu của cuốn sách Game Changer (2019), một tác phẩm chuyên sâu về phong cách chơi cờ của AlphaZero, Hassabis đã trình bày tham vọng của công ty mình:
"Xây dựng các hệ thống thông minh có thể tự học cách giải quyết bất kỳ nhiệm vụ phức tạp nào, và sau đó sử dụng công nghệ này để tìm ra giải pháp cho một số thách thức lớn nhất của xã hội và những câu hỏi chưa có lời giải."
Hassabis đã nhiều lần tuyên bố trong các cuộc phỏng vấn rằng ông muốn "giải quyết trí tuệ", và sau đó sử dụng trí tuệ "để giải quyết mọi vấn đề khác."
Thành công đáng chú ý đầu tiên của DeepMind đến vào tháng 12 năm 2013, khi thuật toán học sâu Deep Q-Network (DQN) đạt được điểm số cấp chuyên gia trong các trò chơi Atari, chỉ bằng cách tự học từ các pixel thô trên màn hình mà không cần bất kỳ hướng dẫn nào.
Một năm sau khi Google (nay là Alphabet) mua lại DeepMind vào năm 2014 với giá được cho là 400 triệu bảng Anh (650 triệu USD), công ty của Hassabis đã đạt được một bước đột phá còn lớn hơn. Thuật toán mạng nơ-ron AlphaGo đã trở thành cỗ máy đầu tiên đánh bại một nhà vô địch thế giới trong trò chơi cờ vây (Go)—một thành tựu mà theo các chuyên gia, đã đến sớm hơn hàng thập kỷ so với dự đoán.
Vì cờ vây thậm chí còn phức tạp hơn cờ vua, tạo ra một động cơ chơi ở cấp độ con người mạnh mẽ người chơi thậm chí còn khó khăn hơn. Một hàm đánh giá là khó xây dựng vì có nhiều nước đi có thể có khiến cho việc sử dụng phép tính brute-force trở nên khó khăn hơn, loại DeepMind đã tiếp cận thử thách này theo một cách khác biệt so với các chương trình cờ vây hiện có (và AlphaGo nhanh chóng đánh bại những chương trình đó trước khi đối đầu với con người). AlphaGo sử dụng mạng nơ-ron sâu, một phương pháp trong trí tuệ nhân tạo giúp máy tính xử lý dữ liệu theo cách lấy cảm hứng từ bộ não con người. Giống như não bộ, nó sử dụng các nút kết nối hoặc nơ-ron trong một cấu trúc phân tầng. Các mối quan hệ toán học giữa các lớp này liên tục được cập nhật trong quá trình huấn luyện dữ liệu.
Trong trường hợp này, AlphaGo được đào tạo trên một lượng lớn dữ liệu gồm các ván cờ vây của các kỳ thủ chuyên nghiệp, cho phép nó học hỏi từ kiến thức và mô hình chơi của con người.
Một khía cạnh quan trọng khác là học tăng cường (reinforcement learning): AlphaGo đã chơi hàng loạt ván đấu với các phiên bản khác của chính nó, nhờ đó thu thập dữ liệu và dần cải thiện chiến lược của mình theo thời gian. (Mạng nơ-ron có tính linh hoạt rất cao, và thông qua huấn luyện, chúng có thể học để thực hiện nhiều nhiệm vụ khác nhau, chẳng hạn như nhận diện mèo và chó bằng cách phân tích hàng nghìn hình ảnh có nhãn.)
Một kỹ thuật đổi mới khác là sử dụng mạng giá trị (value network) để giảm độ sâu của cây tìm kiếm và mạng chính sách (policy network) để giảm độ rộng của quá trình tìm kiếm, giúp đánh giá vị trí và đưa ra quyết định hiệu quả dựa trên những gì nó đã học được. AlphaGo cũng được chạy trên hạ tầng phần cứng mạnh mẽ, bao gồm nhiều GPU hiệu suất cao, giúp xử lý nhanh chóng tất cả các nước đi và vị trí có thể xảy ra.
Một yếu tố góp phần vào thành công của AlphaGo thực chất không phải là điều mới mẻ: đó là việc sử dụng Monte Carlo Tree Search (MCTS)—một thuật toán tìm kiếm heuristic mô phỏng các chuỗi nước đi ngẫu nhiên trong cây tìm kiếm, giúp cải thiện khả năng đánh giá nước đi tốt nhất.
Như thường thấy trong lĩnh vực trí tuệ nhân tạo, sẽ đến lúc những con người giỏi nhất phải được thách thức và đánh bại. Cờ vây đã trải qua khoảnh khắc tương tự trận đấu giữa Kasparov và Deep Blue vào tháng 5 năm 2016, khi một trận đấu gồm năm ván diễn ra tại Seoul, Hàn Quốc giữa AlphaGo và kỳ thủ cờ vây số một Hàn Quốc Lee Sedol—một trong số ít người trên thế giới đạt đến cấp bậc cao nhất, 9 dan.
Trước trận đấu, Lee Sedol rất tự tin, tuyên bố rằng anh mong đợi chiến thắng mà không để thua một ván nào. Nhưng kết quả lại hoàn toàn khác: anh thua liên tiếp ba ván đầu tiên, thắng một ván, nhưng lại thua ván cuối cùng, chấp nhận thất bại 1-4. Ba năm rưỡi sau đó, Lee Sedol tuyên bố giải nghệ, với lý do:
"Ngay cả khi tôi trở thành số một, vẫn có một thực thể mà tôi không thể đánh bại."
Bên cạnh việc hủy diệt một kỳ thủ đẳng cấp thế giới—một cú sốc toàn cầu—phong cách chơi của AlphaGo cũng gây kinh ngạc đến mức nhiều cuốn sách đã được viết về chủ đề này (điều tương tự cũng sẽ xảy ra với AlphaZero sau này). Đặc biệt, nước đi thứ 37 của AlphaGo trong ván đấu thứ hai đã đi vào lịch sử như một khoảnh khắc mang tính cách mạng. Demis Hassabis viết:
"Đó là một nước đi không tưởng đến mức những kỳ thủ cờ vây hàng đầu thế giới đang bình luận trực tiếp đã nghĩ rằng chắc chắn có sai sót nào đó. Nhưng hơn một trăm nước đi sau, quân cờ đó lại ở đúng vị trí chiến lược hoàn hảo để quyết định kết quả trận đấu."
Sự ra đời của AlphaZero
Sau thành công vang dội với cờ vây, bước tiếp theo của DeepMind là phát triển một hệ thống có tính tổng quát: họ muốn tạo ra một chương trình có thể đạt đẳng cấp siêu nhân trong bất kỳ trò chơi hai người chơi, thông tin hoàn hảo nào.
Tháng 12 năm 2017, nhóm nghiên cứu DeepMind công bố một bản thảo nghiên cứu, trong đó tiết lộ rằng thuật toán mới nhất của họ, AlphaZero, có thể đạt đến trình độ siêu nhân mà không cần học hỏi từ con người—nó chỉ đơn giản là tự chơi với chính mình trong ba trò chơi khác nhau:
- Cờ vua (chess),
- Shogi (cờ Nhật Bản),
- Cờ vây (Go).
Cũng giống như AlphaGo, phong cách chơi cờ vua của AlphaZero đã gây chấn động thế giới. Nó chơi tấn công táo bạo, hy sinh quân để đưa trận đấu vào những thế cờ cực kỳ phức tạp—phong cách của những nhà vô địch huyền thoại như Mikhail Tal hay Garry Kasparov. Kasparov bình luận:
"Tôi rất thích thú khi thấy AlphaZero chơi theo phong cách tấn công và hy sinh đầy tính sáng tạo. Không chỉ vì nó giống với phong cách của tôi, mà còn vì nó có thể chơi như vậy và giành chiến thắng trước một chương trình cờ vua chính xác đến đáng sợ."
Một điểm đáng chú ý là AlphaZero chỉ xét khoảng 80.000 vị trí mỗi giây, trong khi Deep Blue năm 1997 có thể xử lý 200 triệu vị trí mỗi giây. Điều này có nghĩa là thuật toán của AlphaZero phải cực kỳ hiệu quả, thay vì dựa vào sức mạnh tính toán thuần túy.
Ngay cả các nhà nghiên cứu tại DeepMind cũng gặp khó khăn trong việc giải thích chính xác cách AlphaZero "suy nghĩ". Chương trình có một hàm đánh giá (evaluation function), nhưng nó không dựa trên bất kỳ dữ liệu đầu vào từ con người, mà chỉ từ trải nghiệm chơi cờ của chính nó. Một trong những nhà phát triển nhận xét:
"Cách mà AlphaZero đánh giá một vị trí cờ vua vẫn là một bí ẩn."
Một người khác mô tả AlphaZero như thể nó đang phát triển một "trực giác" về cờ vua.
Sự trở lại của phương pháp chọn lọc trong cờ vua máy tính
Rõ ràng, cách tiếp cận của máy tính cờ vua đã đi một vòng tròn. Alan Turing và Claude Shannon—những người tiên phong trong lĩnh vực này—đã biết rằng máy tính thời đó không thể thành công nếu chỉ đơn thuần tính toán tất cả nước đi có thể. Vì vậy, họ đề xuất tìm kiếm chọn lọc (Type B Search)—tập trung vào những nước đi có tiềm năng nhất.
Tuy nhiên, họ không thể lường trước được sự phát triển nhanh chóng của sức mạnh tính toán, dẫn đến việc chiến lược dùng brute-force (tìm kiếm toàn diện) trở thành phương pháp chủ đạo trong nhiều thập kỷ, được sử dụng trong hầu hết các chương trình cờ vua mạnh nhất như:
- Belle (Ken Thompson),
- Deep Blue (IBM),
- Và nhiều chương trình khác sau đó.
Tuy nhiên, với AlphaZero, có vẻ như trí tuệ nhân tạo đã quay trở lại với hướng tiếp cận ban đầu của Turing và Shannon—tập trung vào chọn lọc thông minh, thay vì chỉ dựa vào sức mạnh tính toán thô ráp.
Và bây giờ, dù chạy trên phần cứng cực kỳ tiên tiến, AlphaZero tìm kiếm nước đi theo cách thông minh hơn bao giờ hết, đúng như những gì Turing và Shannon từng hình dung.
Từ AI chơi cờ đến AI giải quyết vấn đề khoa học
Có một điểm tương đồng khác với thời kỳ đầu của trí tuệ nhân tạo. Turing và Shannon từng khẳng định rằng việc phát triển một chương trình cờ vua mạnh không phải là mục tiêu cuối cùng, mà chỉ là bước đệm để giải quyết những bài toán có ý nghĩa lớn hơn. Đây chính là triết lý mà Demis Hassabis cùng các đồng nghiệp tại DeepMind đang theo đuổi: từng bước chuyển từ các thuật toán chơi game dựa trên học bắt chước sang các hệ thống học tự giám sát hoàn toàn.
- AlphaGo học chơi cờ vây bằng cách quan sát các ván đấu của con người.
- AlphaGo Zero tiến xa hơn khi chỉ tự chơi với chính mình, không cần dữ liệu từ con người.
- AlphaZero mang tính tổng quát hơn, tự học cách chơi nhiều trò chơi chỉ bằng cách tự đấu với chính nó.
- MuZero (ra mắt năm 2019) thậm chí còn có thể học các trò chơi mà không cần biết trước luật chơi. Không chỉ tiếp tục thống trị cờ vua, shogi và cờ vây, MuZero còn tự học 57 trò chơi Atari từ con số 0.
Thêm một bước đột phá nữa đến vào cuối năm 2022, khi DeepNash được công bố. Đây là AI mới nhất của DeepMind, có thể chơi Stratego ở cấp độ chuyên gia. Nó thắng gần như tất cả các trận đấu với AI khác và đạt tỷ lệ thắng 84% khi đấu với con người trong các trận đấu trực tuyến. Điều đặc biệt là Stratego là một trò chơi có thông tin không hoàn hảo—tức là người chơi không biết vị trí chính xác của quân cờ đối phương. Đây là lần đầu tiên AI làm tốt trong một môi trường có tính bất định cao.
DeepMind: Đưa AI vào ứng dụng thực tế
DeepMind đã ứng dụng kinh nghiệm từ các trò chơi bàn cờ và trò chơi máy tính để phát triển những hệ thống học tập tự giám sát ngày càng trừu tượng hơn, và triển khai chúng vào nhiều lĩnh vực khác nhau trong xã hội.
- Các thuật toán tương tự như AlphaZero đã được sử dụng để tối ưu hóa hệ thống làm mát trong các trung tâm dữ liệu khổng lồ của Google, giúp tiết kiệm lượng lớn năng lượng.
- Nhưng thí dụ quan trọng nhất, theo đúng triết lý giải quyết vấn đề lớn, chính là AlphaFold—chương trình AI của DeepMind có thể dự đoán cấu trúc 3D của protein.
AlphaFold: Đột phá khoa học về sinh học và y học
Hassabis mô tả AlphaFold như
“Định lý cuối cùng của Fermat trong sinh học”.
Thuật toán này phân tích chuỗi axit amin của protein,
sau đó dùng mạng nơ-ron học sâu để dự đoán cách chuỗi này gấp lại thành
cấu trúc 3D. Nhờ vậy, AlphaFold đã cung cấp cho giới khoa học các
hiểu biết vô giá về chức năng và tương tác của protein. Ứng dụng của nó rất
rộng lớn:
✅ Hỗ trợ phát triển thuốc mới,
✅ Giúp chuẩn bị cho các đại dịch
trong tương lai,
✅ Nâng cao hiểu biết về cơ thể con
người.
Tham vọng của DeepMind: Trí tuệ nhân tạo tổng quát (AGI)
Hassabis cho rằng AlphaFold là hệ thống phức tạp và có ý nghĩa nhất mà DeepMind từng phát triển, nhưng tham vọng của ông không có giới hạn. Ông đang hướng đến những thách thức khoa học lớn nhất hiện nay, như:
- Siêu dẫn ở nhiệt độ phòng,
- Tế bào ảo (virtual cells),
- Mô phỏng lượng tử (quantum simulation).
Mục tiêu cuối cùng của DeepMind?
🎯 Phát triển Trí tuệ Nhân tạo Tổng quát (AGI)—một hệ thống có thể học và thực hiện bất kỳ nhiệm vụ trí tuệ nào mà con người có thể làm.
Cuộc đua AGI: Google DeepMind vs. OpenAI
Mặc dù ChatGPT của OpenAI là AI đầu tiên đạt sự nổi tiếng toàn cầu, nhưng DeepMind, Meta, Microsoft, Amazon và IBM cũng đang phát triển mô hình ngôn ngữ lớn (LLM) của riêng mình—được coi là một bước tiến lớn hướng đến AGI.
Hệ thống AI của DeepMind, mang tên Gemini, ra mắt lần đầu vào tháng 12/2023. Gemini sử dụng các kỹ thuật từ AlphaGo để nâng cao khả năng của mình.
Lời tạm biệt của Stephen Hawking
Trong một buổi phỏng vấn podcast với Lex Fridman vào tháng 7/2022, Hassabis kể về cuộc gặp cuối cùng của ông với Stephen Hawking trước khi nhà vật lý lý thuyết này qua đời. Hawking rất quan tâm đến công việc của DeepMind, và hai người đã trò chuyện trong nhiều giờ.
Trước khi chia tay, Hawking nói với Hassabis một câu đầy ẩn ý:
“Chúc anh may mắn, nhưng đừng may mắn quá.”
Trích dịch trong quyển "Cuộc cách mạng cờ vua từ thế giới cổ đại đến kỷ nguyên số"
Không có nhận xét nào:
Đăng nhận xét