Trang nhà > Khoa học > Ngôn ngữ > Ngôn ngữ Việt và Tin học
Ngôn ngữ Việt và Tin học
Chủ Nhật 2, Tháng Ba 2008
Xử lý tiếng Việt trên máy tính là vấn đề trăn trở của các chuyên gia CNTT Việt Nam từ nhiều năm nay. Nhưng việc đưa ngôn ngữ Việt vào CNTT dường như vẫn chưa thu hút được các nhà ngôn ngữ học (NNH). 3 chuyên gia CNTT nhiều năm gắn bó và tâm huyết với vấn đề này sẽ chia sẻ với bạn đọc những suy nghĩ và mong mỏi của họ...
Người dùng thiệt thòi
Ông Nguyễn Việt Hải,
GĐ công ty Công Nghệ eDT
Trong tiếng Anh, thuật ngữ CNTT thay đổi rất nhanh. Có những từ nguyên gốc tiếng Anh có rất nhiều nghĩa ở những hoàn cảnh khác nhau. Vì vậy, khi tham gia cùng Microssoft Việt hóa hệ điều hành (HĐH) Windows (eDT là một trong những đối tác của Microsoft tham gia Việt hóa hệ điều hành Windows từ phiên bản 95 - PV), chúng tôi rất khó khăn để tìm được từ phù hợp và ngắn gọn. Đối với các thuật ngữ, không phải tất cả mọi người đều thống nhất một cách hiểu. Đây là đặc trưng và cũng chính là khó khăn khi giải quyết các vấn đề về ngôn ngữ. Chẳng hạn, “experience” thường được dịch là kinh nghiệm. Nhưng từ này còn có nghĩa là “trải nghiệm”.
CNTT Việt Nam có một thiệt thòi là 17, 18 năm trở lại đây, chúng ta không còn tập trung chuyên sâu vào nghiên cứu các vấn đề cơ bản. Các ĐH, viện nghiên cứu chỉ tập trung vào ứng dụng trong khi các nghiên cứu về học thuật rất ít. Điều đó khiến thuật ngữ ngày càng nghèo nàn đi. Trong khi với sự phát triển nhanh chóng của ngành này, những từ được đưa vào dùng không phải tất cả đều hợp lý. Chẳng hạn, nhiều người vẫn dịch “server” là máy chủ, nhưng về bản chất “server” là máy dịch vụ, đáp ứng các yêu cầu của máy khách (client) chứ không có khả năng sai khiến máy khách như “host” (máy chủ)- xem từ điển Lạc Việt.
Với những vấn đề về ngôn ngữ như vậy, khi Việt hóa các HĐH Windows, theo tôi Microsoft đã có cách làm hợp lý là tranh thủ ý kiến cộng đồng và lấy ý kiến thống nhất của số đông. Tuy nhiên, ngoại trừ phiên bản Windows 95 được Việt hóa đầy đủ với đúng nghĩa một HĐH tiếng Việt, các phiên bản còn lại chỉ được Việt hóa giao diện. Từ thực tiễn công việc Việt hóa, tôi thấy có nhiều thiệt thòi cho người sử dụng HĐH Windows, nhất là những người không biết ngoại ngữ. Tiềm năng của Microsoft rất lớn nhưng việc họ đầu tư vào các phiên bản tiếng Việt đến mức nào phụ thuộc nhiều yếu tố.
Về bàn phím tiếng Việt, sẽ không còn là vấn đề lớn nếu chúng ta chấp nhận cách gõ giống với VNI (mỗi phím số tương ứng với một thanh hoặc nguyên âm). Khi đó, nhà sản xuất chỉ cần in thêm điều này lên trên bàn phím, rất đơn giản! Tôi đánh giá cách gõ này có nhiều ưu điểm, đặc biệt, rất nhiều công cụ lập trình hỗ trợ kiểu gõ này.
- Nguyễn Chí Công (1979)
Khẳng định bản sắc...
TS. Nguyễn Chí Công -
TB Khoa Học Công Nghệ, Hội Tin Học Việt Nam
(Ghi chú: năm 1977 ông cùng các đồng nghiệp đã nghiên cứu và thiết kế ra máy vi tính đầu tiên của VN từ những chip vi xử lý Intel; ông cũng từng là trưởng ban kỹ thuật soạn TCVN 6909, bộ mã chuẩn chữ Việt dùng trong trao đổi thông tin ban hành năm 2001)
Tôi xin dẫn lời học giả Phạm Quỳnh “Truyện Kiều còn - tiếng ta còn, tiếng ta còn - nước Nam còn”. Điều đó có nghĩa ông đã coi chữ và tiếng Việt là biểu trưng của đất nước và con người Việt Nam. Ngày nay, chữ và tiếng Việt còn thể hiện mạnh mẽ hơn trong mọi mặt đời sống văn hoá, chính trị, khoa học của nước ta. Đặc biệt, đại đa số người Việt bước vào thời đại CNTT (chính xác hơn là xã hội thông tin) mà vẫn đang dùng tiếng Việt chứ không phải ngoại ngữ...
Tin học hóa là xử lý thông tin bằng máy tính ở những chỗ có thể thay thế cho con người. Vì vậy, một trong các công việc chủ yếu của giới tin học, theo tôi vẫn là xử lý ngôn ngữ tiếng Việt bằng CNTT. Việc Microsoft Việt hoá các sản phẩm của họ là thiện chí rất đáng hoan nghênh. Tuy nhiên, xử lý ngôn ngữ tiếng Việt trên máy tính là công việc ở mức cao hơn mà chính người Việt phải làm chứ không ai có thể làm hộ.
Đã đến lúc các nhà ngôn ngữ học (NNH) phải thực sự vào cuộc. Nhưng dù có hay không có sự tham gia của nhà NNH thì giới CNTT vẫn phải tiếp tục làm. Đầu tiên là nghiên cứu quy luật và đặc trưng của tiếng Việt từ góc độ CNTT, qua đó tìm những giải thuật xử lý tự động tiếng Việt bằng máy tính. Dĩ nhiên, đây là một công việc lâu dài và đòi hỏi đầu tư lớn về tâm trí lẫn tiền của.
Năm 2003, một hội thảo về “CNTT và NNH” đã được ban vận động thành lập hội Tin Học Trẻ Việt Nam và khoa NNH, ĐH Khoa Học Xã Hội & Nhân Văn Hà Nội tổ chức. Tiếc rằng, sau hội thảo đó, sự đón nhận của giới NNH với CNTT rơi dần vào quên lãng. Khác với quốc tế, giới NNH Việt Nam dường như còn đứng ngoài cuộc và nhiều người vẫn nghĩ NNH độc lập với tin học. Tuy nhiên, NNH chỉ là một khoa học có đối tượng nghiên cứu là thông tin, chủ yếu là thông tin thể hiện bằng ngôn ngữ giao tiếp bên ngoài bộ óc của con người. Còn tin học là ngành có thể áp dụng các kết quả và phương tiện của mình (tức CNTT) trong rất nhiều lĩnh vực - gồm cả NNH. Xin đơn cử vài ví dụ cụ thể đang có tiềm năng phối hợp giữa NNH và tin học: nghiên cứu về e-learning, web ngữ nghĩa và khai phá tri thức...
Trở lại với lịch sử CNTT Việt Nam, từ ngày có chiếc máy vi tính đầu tiên, một trong các việc chúng ta đã làm là đưa chữ Việt vào. Chưa thể nói là nhiều nhưng những việc rất cơ bản đã được làm. Điều lớn nhất là chuẩn hóa bộ mã tiếng Việt dùng cho trao đổi thông tin. Quá trình chuẩn hóa đó kéo dài mất hàng chục năm. Cuối cùng, chúng ta đã hòa mình vào bộ mã Unicode của thế giới mà trong đó có chỗ cho cả chữ Quốc Ngữ lẫn chữ Nôm. Đó là những tiền đề để số hoá các văn bản hiện đại lẫn cổ xưa.
Nhưng thực tiễn cho thấy dường như chúng ta vẫn mạnh ai nấy làm mà không có một lộ trình chung để thống nhất và hợp tác. Xử lý được ngôn ngữ tiếng Việt trên máy tính là công việc không được xem thường. Nếu không làm được việc này thì có lẽ không còn việc gì chúng ta có thể làm tốt hơn người khác!
- Quách Tuấn Ngọc (2007)
Những kinh nghiệm thực tế
TS. Quách Tuấn Ngọc,
GĐ Trung Tâm Tin Học, Bộ Giáo Dục Đào Tạo
(Ghi chú: ông là người đã xây dựng BKED, một trình soạn thảo văn bản trên máy tính PC trong những năm 1990)
Ở đây, tôi chỉ đề cập đến NNH thông qua những công việc thực tế đã tham gia.
Xây dựng từ điển vần: Nếu làm thủ công thì các nhà NNH sẽ mất rất nhiều thời gian. Khoảng 1993, tôi đã trực tiếp giúp đỡ GS Hoàng Phê làm từ điển vần bằng cách lập trình máy tính ra tất cả các vần, sau đó nhặt bỏ đi các vần không phát âm được vì số này chiếm rất ít. Quá trình này chỉ một thời gian ngắn là hoàn thành.
Từ điển tần số tiếng Việt: Trước đây các tác giả phải nghiên cứu cả đời người rất vất vả. Nay nhờ tin học, chuyện này xem như là... chuyện vặt. Tôi đã từng hướng dẫn sinh viên cao đẳng làm việc này trên Word. Có lẽ cần hoàn thiện hơn phần mềm này để giới ngôn ngữ dùng được dễ dàng hàng ngày.
Mỹ thuật: Cụ thể là các dấu sắc, huyền, hỏi phải đặt vào bên trái hay phải của dấu “^” trên chữ “Ô”. Hoạ sĩ Lê Thanh Đức - một chuyên gia về mẫu chữ - từng cho biết không thể làm việc này một cách tùy tiện.
Phần âm: Học ngoại ngữ, chúng ta phân 2 loại âm hữu thanh và âm vô thanh. Vậy nhưng cả mấy chục năm sau tôi cũng không hiểu được các cách giải thích và phân loại này. Rồi cả khái niệm nguyên âm và phụ âm nữa. Tôi tạm đưa ra khái niệm dựa trên cơ cấu phát âm và xử lý: Khi phát âm, luồng không khí từ phổi đi qua dây thanh (ở cuống họng) là đôi dây thanh dao động với chu kì To. Khi phát âm, nếu đôi dây thanh dao động thì đó là âm hữu thanh, còn không dao động thì là âm vô thanh. Đồ thị có thể ghi ra bằng máy tính sẽ cho thấy âm hữu thanh có dáng tuần hoàn, âm vô thanh thì không tuần hoàn. Còn nguyên âm là âm khi phát ra có thể kéo dài vô tận nếu... ta lắp thêm cái máy bơm khí vào phổi - đây là cách ví von cho dễ hiểu. Còn phụ âm là âm chỉ có thể phát ra từng nhát một, không kéo dài được.
Phần toán: Người học toán đều biết chuỗi Fourier nổi tiếng và sau đó là ứng dụng để phân tích chuỗi xung chữ nhật, tam giác ... Rất ít người biết các âm hữu thanh chính là chuỗi Fourier.
Bộ chữ viết tiếng Việt truyền thống trong giáo dục là một chủ đề đã được bàn luận khá nhiều. Đơn giản ngay như chuyện dấu chấm câu: liền với chữ cái cuối cùng hay cách ra? Tưởng là đơn giản mà vẫn còn có nơi qui định viết cách ra. Với tôi thì việc này không phải thích mà qui định được vì đó đã là chuẩn quốc tế: phải gõ sát vào chữ cái cuối cùng.
Thực hiện: Tân Khoa - Thu Nga (PWV)