Chờ một lý thuyết toán đúng đắn về Học máy

TS Nguyễn Minh Hải

Technology

Trong một bài về Geoffrey Hinton (ảnh trên), người được cho là "Cha đẻ" của Học sâu đã tạo nên làn sóng thứ 3 của AI kể từ khi lĩnh vực này chính thức được thừa nhận vào năm 1956, tôi đã nêu lại sự nghi ngờ khi trích dẫn hai ý kiến của chính ông về vai trò của Học sâu trong tương lai hướng tới AGI (Artificial General Intelligence).

Geoffrey Hinton:
—"Quan điểm của tôi là ném tất cả đi và bắt đầu lại."
— “Tương lai phụ thuộc vào một số sinh viên tốt nghiệp, những người nghi ngờ tất cả những gì tôi đã nói.”

Nhiều bạn đã trao đổi và băn khoăn không biết làm thế nào để hiểu được bản chất của Học máy (Machine Learning - ML) trong một đại dương mênh mông các tài liệu, các công cụ, các quảng bá rầm rộ của truyền thông...

Có rất nhiều tài liệu lý thuyết về ML trên web, đến nỗi ngay cả khi ai đó từ bỏ tất cả các hoạt động khác để chỉ đọc các tài liệu lý thuyết ML 24/7, anh ta cũng hầu như không làm gì nên chuyện. Một cách thô thiển, Arxiv xuất bản khoảng 100 bài báo ML mới mỗi ngày. Tức là khoảng 30.000 bài mỗi năm. Đó là một biển các chữ cái Hy Lạp để lặn ngụp.

Vậy, bạn nên tìm ở đâu? Một tìm kiếm Google đơn giản như “theory of machine learning” sẽ cho kết quả thế nào? Gần 1.300.000 tài liệu phù hợp được khuyến cáo! Như thông thường, các phương pháp đơn giản nhất lại đem đến lợi ích đáng ngạc nhiên. Hãy thử lưu trữ hội thảo như NeurIPS, ICML và AI Stats cho các bài báo ML định hướng lý thuyết.

Tại sao bạn lại tò mò về lý thuyết sâu sắc hơn? Chắc chắn đó không phải là một cảm xúc phổ biến. Hầu hết mọi người muốn biết về những đồ chơi lấp lánh mới nhất trong ML - đó thường là một số điều chỉnh trong Học sâu ngày nay. Lý thuyết ít được coi trọng. Vì vậy, sự tò mò của bạn cũng giống như bạn hỏi “Hoàng đế ML có quần áo không?”.

Thời gian đã trôi qua hơn 60 năm một cách lạnh lùng. Nhưng trong thế giới của lý thuyết, mọi thứ diễn ra chậm hơn nhiều. Những tiến bộ về mặt lý thuyết có tốc độ sên bò so với sự bùng nổ của truyền thông điên cuồng về ML.

Điểm quan trọng nhất rút ra được từ ​​hơn 60 năm lý thuyết ML có thể gói gọn trong một dòng: ML không phải là tất cả. ML có thể giải quyết những vấn đề đơn giản mà trẻ hai tuổi dường như có khả năng giải quyết.

Cái nhìn sâu sắc về lý thuyết đầu tiên là từ một bài báo đặt nền móng cho ML của Gold gần 60 năm trước ("Language identification in the limit"). Về cơ bản, nó đã phá tan ảo tưởng rằng ML có thể làm bất cứ điều gì khi được cung cấp đủ sức mạnh tính toán và dữ liệu. Nghe có vẻ quen?

Gold cho thấy một mô hình đơn giản đến nực cười, trong đó thậm chí còn cung cấp sức mạnh tính toán tùy ý (ví dụ, một tỷ GPU chạy trên máy tính lượng tử) và lượng dữ liệu tùy ý (ví dụ: một nghìn tỷ ổ cứng chứa 10 terabytes mỗi cái), nhưng một bộ học máy (machine learner) cũng không bao giờ có thể giải quyết các bài toán đố đơn giản như suy ra một văn phạm phi ngữ cảnh (context-free grammar) chỉ từ các chuỗi câu của ngôn ngữ. Rất đáng suy nghĩ về ý nghĩa sâu sắc của kết quả này cho công việc nghiên cứu ngày hôm nay về Học sâu (deep learning) để xử lý ngôn ngữ tự nhiên (Natural Language Processing – NLP). Ở một giác độ nào đó, kết quả này đối với ML cũng giống như Định lý bất toàn của Gödel đối với logic toán. Suy diễn quy nạp của các ngôn ngữ hình thức (formal languages) từ dữ liệu dương

Mô hình Gold Gold được đơn giản hóa cao, giống như mô hình tính toán nổi tiếng của Turing. Về lý thuyết, bạn không nên sa đà vào những trang trí hoành tránh. Các nhà lý thuyết thích nguyên tắc KISS (Keep it Simple Stupid).

Nguyên tắc KISS (Wikipedia)

Trong mô hình lý thuyết của Gold, một bộ học máy phải xác định chính xác tập hợp (chỉ chứa tất cả những câu thuộc ngôn ngữ) hoặc một hàm (cho giá trị 1 nếu câu thuộc ngôn ngữ và 0 nếu ngược lại) dựa vào các câu được cung cấp. Không cho phép có lỗi. Để có được tiến bộ quan trọng tiếp theo, chúng ta đã phải chờ 25 năm. Khi bạn muốn làm nhà lý thuyết, cuộc sống của bạn cũng di chuyển chậm như vậy.

Năm 1984, Les Valiant ở ĐH Harvard đã viết một bài báo tuyệt vời và ông đã nhận được giải thưởng lớn nhất về khoa học máy tính, Giải thưởng Turing, khoảng 30 năm sau. Mô hình của Valiant đã đưa ra một số cải tiến quan trọng từ mô hình của Gold trong đó một bộ học máy có thể có thể có lỗi hoặc thất bại. Nhưng, lỗi và thất bại phải được kiểm soát.

Lý thuyết học được (A theory of the learnable)

Bài báo đoạt giải Turing của Valiant có tiêu đề đơn giản: “A theory of the learnable". Nội dung chính của bài báo nhằm giải quyêt câu hỏi: Bạn có thể học được gì khi sử dụng thuật toán từ dữ liệu, ngay cả khi bạn có thể mắc lỗi, bạn có một giáo viên tồi, bạn chỉ có quyền truy cập vào một lượng tài nguyên tính toán hạn chế, v.v.

Mô hình của Valiant hiện nay được gọi là “PAC learning” hay “Probably Approximate Learning”. Từ “Probably” ám chỉ rằng bộ học có thể thất bại còn “Approximate” là cho phép bộ học mắc lỗi. Nhưng Valiant đã thêm một điều kiện mới nghiêm ngặt hơn. Đối với một hàm hoặc một tập hợp là “PAC learnable”, bạn phải suy ra được nó từ một số lượng đa thức các mẫu trong thời gian đa thức, trong đó đa thức có thể phụ thuộc vào các tham số của bài toán như số lượng thuộc tính của lĩnh vực quan tâm. Nhưng tại sao lại là đa thức? Vâng, đó là một nền móng của lý thuyết tính toán. Nếu bạn muốn biết thêm, hãy tìm kiếm theo từ khóa “NP complete”. Đó là những kiến thức sâu về khoa học máy tính mà bạn cần biết nếu thực sự quan tâm đến những vẫn đề cốt lõi của ML.

Vậy là đã 36 năm trôi qua kể từ khi bài báo của Valiant được công bố. "Neural Tangent Kernel: Sự hội tụ và tổng quát hóa trong mạng neural" (Neural Tangent Kernel: Convergence and Generalization in Neural Networks).

Trong 36 năm đó có gì mới trong lý thuyết ML? Vâng, như tôi đã nói, cuộc sống di chuyển chậm trong thế giới của lý thuyết. Giải thưởng Turing cho năm 2019 đã thuộc về ba nhà nghiên cứu có liên quan nhiều nhất tới học sâu (Geoff Hinton, Yoshua Bengio và Yann Le Cun). Học sâu là câu đố lớn nhất đối với các nhà lý thuyết ML hiện nay. Có một điều gì đó không ổn khi có những đòi hỏi tính toán phi lồi, phi tuyến. Các nhà lý thuyết ML giỏi nhất rất nỗ lực trong việc làm sáng tỏ câu đố này. Một ống thở mỏng manh giúp họ không bị chết đuối là nhận ra rằng các mạng lưới thần kinh rộng vô hạn chỉ là các quá trình Gaussian dưới một cái gì đó gọi là “neural tangent kernel”. Những ý tưởng mới đó được trình bày trong bài “Neural Tangent Kernel: Convergence and Generalization in Neural Networks".

Vậy đó. 60 năm lý thuyết ML được đánh dấu bằng ba cột mốc trên! Đọc những điều đó và bạn sẽ biết những điểm nổi bật của lĩnh vực này.

Một bức tranh không mấy đẹp đẽ. Trong ML chúng ta còn xa để có được một lý thuyết như các lý thuyết xuất sắc đã cách mạng hóa vật lý hoặc sinh học. Chúng ta thiếu những hiểu biết sâu sắc mà những con người vĩ đại như Darwin, Einstein hay Newton đã mang đến cho sinh học và vật lý. ML gần giống với thuật giả kim hơn vật lý hay sinh học, điều mà chúng ta phải thừa nhận dù không muốn. Có rất nhiều nhóm “Sơn Đông mãi võ” sẵn sàng bán cho bạn những thần dược của họ. Coi chừng. Chúng ta đang ở thời đại khoa học tiền ML. Chúng ta không có đề bài toán học đúng. Chúng ta loạng choạng trong bóng tối, bám vào ống thở, chờ đợi Darwin của chúng ta chỉ cho con đường đi đúng.

N.M.H