Deep Learning and Common sense

Học sâu và Common sense

TS Nguyễn Minh Hải

Học sâu (Deep Learning) đang là vị vua trị vì của AI (Artificial Intelligence). Trong sáu năm kể từ khi bùng nổ, giờ đây nó đã trở thành xu hướng thống trị giúp máy móc cảm biết và nhận thức thế giới xung quanh đồng thời tạo nên làn sóng thứ ba trong lịch sử phát triển hơn sáu tập kỷ qua của AI

Nó hỗ trợ khả năng nhận dạng giọng nói của Alexa, xe tự lái Waymo, và các bản dịch trên Google. Uber sử dụng nó để giải bài toán tối ưu khổng lồ: sử dụng máy học để tìm ra nơi hành khách sẽ cần xe hơi. Baidu, gã khổng lồ công nghệ Trung Quốc, có hơn 2.000 kỹ sư đang quay cuồng với mạng lưới thần kinh AI. Trong nhiều năm, dường như việc học sâu càng ngày càng mở rộng phạm vi ứng dụng và trở nên tốt hơn. Điều đó khiến các tín đồ của nó tin rằng trong tương lai gần học sâu sẽ tạo ra một cỗ máy có trí thông minh tuyệt tác của con người.

Nhưng một số một số người “dị giáo” cho rằng việc học sâu đang đang húc đầu vào tường. Theo họ học sâu sẽ không bao giờ tạo ra trí thông minh tổng quát (General AI), bởi vì trí thông minh thực sự của con người không phải là nhận dạng (pattern recognition). Chúng ta cần bắt đầu tìm ra cách làm cho AI thẩm thấu các tri thức có ý nghĩa chung (common sense) - đặc trưng cho sự thông minh của con người. Nếu chúng ta không làm được, họ cảnh báo, chúng ta sẽ tiếp tục đối mặt với giới hạn của việc học sâu, như hệ thống nhận dạng hình ảnh có thể dễ dàng bị đánh lừa bằng cách thay đổi một vài ảnh đầu vào khiến cho một mô hình học sâu nghĩ rằng một con rùa là một khẩu súng. Nhưng nếu chúng ta thành công, chúng ta sẽ chứng kiến sự bùng nổ của các thiết bị an toàn hơn, hữu ích hơn như robot tự động dọn dẹp một ngôi nhà bừa bộn, hệ thống phát hiện gian lận không bị đánh lừa bằng các sự cố giả, đột phá trong y tế được hỗ trợ bằng máy móc khi cân nhắc nguyên nhân và tăng hiệu quả điều trị bệnh...

Gary Marcus là một giáo sư tâm lý học và khoa học thần kinh nổi tiếng tại Đại học New York và có lẽ ông là kẻ “dị giáo” nổi tiếng nhất của việc học sâu chính thống. Marcus đến với trí tuệ nhân tạo khá muộn (vào những năm 1980 và 90) khi mạng lưới thần kinh vẫn đang trong giai đoạn thử nghiệm. Tuy nhiên ông không chỉ dạo chơi trong bữa tiệc đó. Ngay khi học sâu bùng nổ, ông đã nhận định “Đây là một hướng đi sai lầm!”.

Marcus không đồng tình với quan điểm trong học sâu cho rằng trí tuệ con người ban đầu là một bảng trắng và được nạp dần tri thức hoàn toàn nhờ quan sát thế giới xung quanh (dữ liệu) và như vậy máy móc cũng có thể “bắt trước” (quan điểm của nhà tâm lý học Jean Piaget). Ông đi theo trường phái của Noam Chomsky và cho rằng con người vốn dĩ sinh ra đã được trời phú một số cơ chế thông minh được lập trình sẵn (preprogrammed smarts) để làm chủ ngôn ngữ và giải thích thế giới vật chất. Vì vậy cách hoạt động của mạng thần kinh (neural net) được xây dựng theo quan điểm “bảng trắng” không giống như cách hoạt động của bộ não con người.

Để làm việc hiệu quả mạng thần kinh cần học từ hàng triệu ví dụ. Tệ hại hơn khi chúng ta muốn mạng thần kinh nhận biết được một đối tượng mới, chúng ta lại phải làm lại từ đầu. Một mạng thần kinh được huấn luyện để nhận biết con mèo không thể dùng để nhân ra âm thanh do con chim hay con người tạo nên.

Đối với con người không phải lúc nào cũng cần có nhiều dữ liệu phục vụ cho học tập. Đứa trẻ không cần nhìn thấy hàng triệu chiếc xe hơi trước khi chúng có thể nhân biết được một chiếc xe ô tô. Hơn nữa, chúng có thể khái quát hóa khi xếp một chiếc máy kéo lần đầu tiên nhìn thấy vào lớp “xe hơi”. Chúng cũng có thể biết hệ quả của những tính huống đối nghịch. Google có thể ánh xạ một câu tiếng Anh sang câu tiếng Việt tương đương “Cái cốc bị đẩy và nó rơi ra khỏi bàn”. Tuy nhiên Google không biết ý nghĩa của các từ nên không thể cho chúng ta biết điều gì xảy ra nếu cái cốc không bị đẩy. Còn trẻ em sẽ biết trong tình huống đó cốc vẫn nằm trên bàn. Hơn nữa, con người không chỉ nắm bắt các mẫu ngữ pháp mà cả logic đằng sau nó. Bạn cho một đứa trẻ một động từ giả như pilk, và nó có thể có khả năng lý giải rằng thì quá khứ sẽ là pilked mặc dù chưa bao giờ gặp động từ này (được huấn luyện). Đứa trẻ trực cảm được logic về cách ngôn ngữ hoạt động (rules) và có thể áp dụng nó vào một tình huống hoàn toàn mới.

Học sâu không có khả năng tích hợp các tri thức trừu tượng. Orien Etzioni, người điều hành Viện trí tuệ nhân tạo Allen ở Seattle (Paul Allen - nhà đồng sáng lập và nhà từ thiện của Microsoft - đã hiến tặng hàng tỷ đô la cho nghiên cứu khoa học, khí hậu và sức khỏe. Ông qua đời vì biến chứng do ung thư vào ngày 15 tháng 10 ở tuổi 65), đã chỉ trích hạn chế này của học sâu một cách hài hước qua ngữ cảnh 2 thời điểm huyền thoại của AI: IBM’s Deep Blue đánh thắng Garry Kasparov trong cờ vua (1997) và sự thất bại gây sốc không kém của kỳ thủ hàng đầu thế giới môn cờ vây trước DeepMind’s AlphaGo (2014).

“Với Deep Blue, chúng ta đã có một chương trình đi những nước cờ siêu phàm của cờ vua trong khi căn phòng đang bốc cháy. Hành động như vậy có đúng không? Hoàn toàn thiếu bối cảnh. 20 năm trôi qua, chúng ta lại có một chiếc máy tính thực hiện những nước đi siêu phàm của cờ vây trong khi căn phòng đang cháy”. Tất nhiên, con người không có hạn chế này. Nhân viên của Etzioni chơi cờ vua hàng ngày, và nếu một đám cháy bùng phát, họ sẽ kéo chuông báo động và tìm cách chạy ra khỏi cửa.

Nói cách khác, con người sở hữu một cơ sở tri thức về thế giới (lửa đốt mọi thứ) trộn với khả năng suy luận về nó (bạn nên cố gắng tránh xa ngọn lửa khi mất kiểm soát nó). Để AI thực sự có suy nghĩ giống như con người, chúng ta cần dạy cho nó những thứ mà mọi người đều coi là hiển nhiên nhưng hiếm khi được phát biểu một cách tường minh (common sense), như trong vật lý (quả bóng được ném lên không trung sẽ rơi) hoặc kích thước tương đối của mọi thứ (“Cậu bé ném trái bóng” thì có thể khẳng định trái bóng nhỏ hơn câu bé). “Chừng nào AI chưa sở hữu những khái niệm cơ bản này, nó không thể suy luận được”. Etzioni nhấn mạnh.

Yann LeCun, một nhà tiên phong học sâu và là người đứng đầu hiện tại của đội ngũ nghiên cứu AI tại Facebook với mục tiêu được giao phó không phải để nâng cấp lặt vặt cho các sản phẩm có sẵn mà là triển khai các nghiên cứu mang tính hàn lâm đầy tham vọng là đẩy lùi các hạn chế hiện tại của AI, đồng ý với nhiều phê bình mới của lĩnh vực này. Ông thừa nhận rằng học sâu đòi hỏi quá nhiều dữ liệu đào tạo, rằng nó có thể không lập luận được, nó không có tri thức common sense. Nhưng ông vẫn kiên định rằng học sâu, nếu được thiết kế đúng cách, có thể cung cấp giải pháp tốt. Ông không đồng ý với trường phái của Chomsky về trí thông minh của con người. Ông nghĩ rằng bộ não của con người phát triển khả năng suy luận chỉ thông qua tương tác, chứ không phải các quy tắc tích hợp sẵn. Tuy nhiên, LeCun thừa nhận rằng cho đến nay chúng ta vẫn chưa biết rõ những con đường nào sẽ giúp việc học sâu vượt qua những khó khăn của nó.

Mới đây Marcus công bố một white paper trên arXiv với lập luận rằng, nếu không có một số phương pháp mới, học sâu có thể không bao giờ vượt qua giới hạn hiện tại của nó. Những gì nó cần là một số quy tắc tăng cường bổ sung hoặc được xây dựng sẵn (built-in) để giúp nó suy luận về thế giới.

Hiện đã có những nỗ lực giải quyết vấn đề common sense theo nhiều cách tiếp cận khác nhau. Một số tiếp tục tận dụng sức mạnh của học sâu bằng cách bổ xung một tầng (layer) mới vào mạng thần kinh chuyên, một số chối bỏ nó.

Nhận được tài trợ hàng trăm triệu đô la từ Paul Allen, Etzioni và Viện của ông đang cố gắng phát triển một tầng lập luận common sence để làm việc với các kiểu mạng lưới thần kinh hiện có. Ông và các đồng nghiệp của mình đã tạo ra một bộ câu hỏi chuẩn mà một AI có lý luận thực sự phải trả lời được: Nếu tôi để tất vào ngăn kéo, liệu chúng có ở đó vào ngày mai không? Nếu tôi dẫm lên ngón chân của ai đó, họ có bị điên không?...

Họ tiến hành thu thập những tri thức như vậy trực tiếp từ chính con người. Phòng thí nghiệm của Etzioni đã trả tiền cho các nhân viên trong Mechanical Turk của Amazon để họ viết ra những phát biểu common sense. Sau đó, nhóm nghiên cứu sử dụng các kỹ thuật học máy khác nhau, một số là phân tích thống kê kinh điển, một số sử dụng mạng lưới thần kinh học sâu để rút ra bài học từ những phát biểi đó.

Yejin Choi, một trong những nhà khoa học về common sense hàng đầu của Etzioni, đã triển khai một số dự án huy động nỗ lực cộng đồng này (crowdsourced efforts). Trong một dự án, bà muốn phát triển một AI có thể hiểu được ý định hoặc cảm xúc (intent or emotion) được chuyển tải không tường minh của một hành động hoặc phát biểu của con người. Bà bắt đầu bằng cách kiểm tra hàng ngàn câu chuyện trực tuyến, blog và các mục thành ngữ trong Wiktionary và trích xuất các dạng câu (phrasal events) như “Jeff punches Roger’s lights out.”. Sau đó, bà ẩn danh từng cụm từ thành “Person X punches Person Y’s lights out” và yêu cầu các nhân viên của Turk mô tả ý định của Người X: Tại sao họ làm điều đó? Khi cô đã thu thập được 25.000 câu được đánh dấu này, cô đã sử dụng chúng để huấn luyện một hệ thống máy học dùng cho việc phân tích các câu mà nó chưa từng thấy trước đây và suy ra cảm xúc hoặc ý định của chủ đề. Sau khi được huấn luyện và được cho câu mới “Oren cooked Thanksgiving dinner,” hệ thống đã đoán rằng Oren đã cố gắng tạo không khí ấm cúng cho gia đình và vì thế gia đình của Oren sẽ cảm thấy hạnh phúc.

Các nhà khoa học AI trong Viện Allen cũng tiến hành những thử nghiệm về common sense trong lĩnh vực thị giác máy (computer vision). Họ đã xây dựng ngôi nhà mô phỏng trong đó lấp đầy các vật dụng hàng ngày như TV, tủ lạnh, tủ bếp đầy chén bát, ghế dài có thể đẩy đi quanh nhà... Sau đó, họ thiết kế robot và sai nó săn lùng một số vật phẩm. Sau hàng ngàn lần thực hiện công việc được yêu cầu, mạng lưới thần kinh đạt được một nền tảng cơ bản trong các sự kiện thực tế. Khi được hỏi ‘Do I have tomatoes?’ nó không lục lọi khắp nhà mà đi mở tủ lạnh. Nếu ra lệnh ‘Find me my keys,’ nó không nhấc TV mà chỉ tìm kiếm phía sau. Nó đã học được rằng thông thường khi cất đồ vật nafoddos người ta không nhấc TV.

Etzioni và các đồng nghiệp của mình hy vọng rằng những thành phần khác nhau - lập luận ngôn ngữ của Choi, tư duy thị giác và các công việc khác mà họ đang làm - có thể tạo ra AI để nắm bắt thông tin khoa học trong sách giáo khoa. Nhưng sẽ mất bao lâu, và những sản phẩm cuối cùng sẽ trông như thế nào? Họ không biết. Các hệ thống common sense mà họ xây dựng vẫn mắc lỗi trên 50%. Choi ước tính bà ấy sẽ cần khoảng hàng triệu phát biểu của con người khi bà huấn luyện các AI phân tích ngôn ngữ khác nhau của mình.

Một vài ý tưởng đề xuất xây dựng cấu trúc giống như common sense trong các mạng lưới thần kinh theo những cách khác nhau. Chẳng hạn, hai nhà nghiên cứu tại DeepMind, gần đây đã tạo ra một hệ thống lai giữa học tập sâu và kỹ thuật truyền thống khác được gọi là lập trình logic quy nạp với mục tiêu là để sản xuất một cái gì đó có thể lập luận theo kiểu toán học.

Cũng có những cách tiếp cận khác để giải quyết vấn đề common sense tuy nhiên chúng đòi hỏi công sức và thời gian bỏ ra rất lớn. Ví dụ chúng ta có thể ngồi viết ra tất cả các quy tắc để nói cho máy biết cách vận hành của thế giới. Dự án Cyc của Doug Lenat được tiến hành theo cách này và không sử dụng học sâu. Trong 34 năm ông đã thuê một nhóm kỹ sư và các nhà triết học mã hóa 25 triệu quy tắc common sense chung ví dụ “Nước là ướt”, “Hầu hết mọi người đều biết tên đầu các bạn của họ”... Sau đó Doug Lenat kiểm soát và lựa chọn quy tắc để đưa vào hệ thống. Và Cyc có thể suy luận “Áo bạn ướt. Có thể bạn vừa đi trong mưa”. Cyc tỏ ra mạnh mẽ hơn các chatbot rất nhiều và được cấp phép sử dụng trong y tế, tài chính và quân sự. Theo ước lượng của Doug Lenat, hệ thống Cyc tiêu tốn khoảng 200 triệu USD.

Những nố lực trên cho thấy, đến hiện nay việc giải quyết các vấn đề của common sense là quá khó khăn và chưa có một cách tiếp cận nào mang tính thuyết phục, trong đó có học sâu - một công cụ mạnh trong phát triển AI của gần thập kỷ qua.

FB Minh Hai Nguyen