Một số vấn đề tiếng Việt và CNTT hiện nay

Ngôn ngữ liên quan đến rất nhiều lĩnh vực như tin học, trí tuệ nhân tạo, hệ thống tự động kiểm định và rộng hơn: mọi lĩnh vực hoạt động trí tuệ của con người đều có các vấn đề ngôn ngữ.

Ngôn ngữ học và công nghệ thông tin (CNTT) có mối quan hệ khăng khít. CNTT ngày nay, được hiểu với nghĩa rộng, là khoa học về các quy luật thu thập, lưu giữ, xử lí, truyền và sử dụng các thông tin nhờ những phương tiện kĩ thuật hiện đại [1, 8].

Ngôn ngữ là công cụ giao tiếp quan trọng nhất của con người. Trong giao tiếp, thông tin là nội dung quan trọng hàng đầu. Phần lớn các thông tin tồn tại dưới dạng các văn bản nói và viết, bằng các ngôn ngữ tự nhiên. Ngôn ngữ được truyền thông chủ yếu qua tiếng nói và chữ viết: mỗi âm, mỗi chữ tiếp nối như chuỗi hạt. Các đơn vị thông tin bit, byte cũng được ghi trong bộ nhớ, các ổ đĩa, đọc tuần tự từng mã một. Những người đầu tiên lập trình cho máy tính đều lấy ngôn ngữ tự nhiên làm mẫu [10].

Ngôn ngữ là hiện thực trực tiếp của tư tưởng. Ngôn ngữ không chỉ là hình thức biểu hiện của tư tưởng, mà còn là phương thức tổ chức các nội dung và thể hiện các tri thức. Trong CNTT, một loạt vấn đề liên quan trực tiếp đến ngôn ngữ. Để có thể xử lí và nắm được khối lượng khổng lồ các thông tin, mà phần lớn được tổ chức nhờ ngôn ngữ tự nhiên, máy tính cần phải tự động "nhận biết" được hình thức văn bản và "hiểu" được nội dung, ngữ nghĩa, ngữ pháp của văn bản. Ngoài ra, việc thiết lập các hệ thống Người – Máy nhằm giải quyết các nhiệm vụ liên quan đến trí tuệ cũng cần phải dựa trên sự đảm bảo về ngôn ngữ. Về mặt xã hội, ý nghĩa của những vấn đề ngôn ngữ trong việc vi tính hoá liên quan đến sự xuất hiện những dạng mới của hoạt động thông tin, như việc xây dựng dựng ngôn ngữ nhân tạo và các từ điển máy, tổ chức và xử lí các ngân hàng thông tin, xây dựng các thuật toán xử lí văn bản, hoàn thiện chế độ giao tiếp trong hệ thống: "Người – Máy tính – Người", mà ở đó, đầu vào và đầu ra đều là các văn bản (tiếng nói, chữ viết), bằng ngôn ngữ tự nhiên. Nói chung, không có hình thức thông tin, truyền thông, hay nói chung, không có hoạt động tri thức nào mà lại không có ngôn ngữ: trong các khâu như thu thập, xây dựng, lưu trữ, hệ thống hoá, phổ biến các thông tin.

Đồng thời, CNTT cũng cung cấp cho người nghiên cứu ngôn ngữ những phương pháp và phương tiện mới, hữu hiệu hơn. CNTT cho phép người ta có thể bao quát khối lượng thông tin khổng lồ, điều mà bộ óc con người không làm nổi. Ngôn ngữ thường được xem là hệ thống cấu trúc-chức năng phức tạp. Với CNTT, nhà ngôn ngữ học có thể tiếp cận với ngôn ngữ cần nghiên cứu một cách hệ thống, toàn diện, có thể khảo sát các yếu tố, quan hệ các yếu tố, trên từng cấp độ và tất cả các cấp độ, trên các bình diện khác nhau, để từ đó tìm ra các quy luật của ngôn ngữ, hay những quan sát của từng nhà nghiên cứu riêng rẽ. CNTT giúp cho nhà nghiên cứu có thể thu thập, lưu giữ, hệ thống hoá, xử lí khối lượng khổng lồ các thông tin (ngân hàng dữ liệu tiếng nói và chữ viết) về ngôn ngữ.

Việc áp dụng những phương pháp và thành tựu của khoa học máy tính vào nghiên cứu ngôn ngữ và giải quyết những vấn đề ngôn ngữ trong CNTT làm nảy sinh một ngành khoa học mới: ngôn ngữ học máy tính (Computational Linguistics) [8, 12]. Hiện vẫn còn có quan điểm khác nhau về đối tượng và cấu trúc của ngành khoa học này. Một số nhà ngôn ngữ học Nga coi ngôn ngữ học máy tính (Komputernaja Lingvistika) là chuyên ngành nghiên cứu áp dụng những thành quả của khoa học máy tính vào giải quyết những nhiệm vụ khoa học và thực tiễn liên quan đến ngôn ngữ; còn chuyên ngành ngôn ngữ học tính toán (Vytishlitelnaja Lingvistika), hẹp hơn, chỉ giới hạn ở chỗ giải quyết những vấn đề ngôn ngữ trong máy tính như việc biểu diễn các tri thức, tổ chức cơ sở dữ liệu ngôn ngữ, các phương diện tâm lí ngôn ngữ học của những quan hệ và sự tác động lẫn nhau giữa người – máy [11]. Dù có cách hiểu khác nhau, nhưng các nhà khoa học đều thừa nhận vai trò quan trọng của ngôn ngữ học máy tính là khả năng xây dựng và kiểm tra trên tư liệu thực tế công việc của các mô hình kĩ thuật-ngôn ngữ học. Mọi giả thuyết có thể kiểm tra nhờ các mô hình này, và dựa vào kết quả kiểm tra có thể chấp nhận hoặc sửa đổi các giả thuyết. Vị tất có một ngành khoa học nào có được khả năng trên như ngôn ngữ học máy tính [8; 12; 15].

Tiếng Việt và CNTT ở Việt Nam cũng có quan hệ 2 chiều như trên: CNTT như công cụ hữu ích để đẩy mạnh nghiên cứu lí thuyết và ứng dụng tiếng Việt, và để phát triển CNTT ở Việt Nam, không thể không nghiên cứu, giải quyết một số vấn đề về tiếng Việt.

Trong những năm gần đây, ở các viện nghiên cứu, các trường đại học ở nước ta đã áp dụng CNTT trong nghiên cứu tiếng Việt và các ngôn ngữ dân tộc thiểu số ở Việt Nam. Đồng thời, một số cơ quan và cá nhân đã cố gắng nghiên cứu giải quyết một số vấn đề tiếng Việt trong CNTT và đã thu được những kết quả nhất định, như xây dựng các bộ mã kí tự tiếng Việt cho máy tính, tổng hợp tiếng nói, nhận dạng tiếng nói, dịch máy. Tuy nhiên, những vấn đề trên được tiến hành một cách tự phát, thiếu cơ bản và thống nhất, thiếu sự hợp tác giữa các cá nhân, tổ chức, đặc biệt thiếu một chủ trương toàn diện của Nhà nước, chưa có những chương trình hợp tác chính thức giữa CNTT và ngôn ngữ học tập trung giải quyết những vấn đề lớn, cơ bản [2; 3; 4; 7]. Tình trạng này đã ảnh hưởng tiêu cực đến sự phát triển của ngôn ngữ học và đặc biệt của CNTT – ngành khoa học-công nghệ-kinh tế mũi nhọn (Ví dụ điển hình là sự tồn tại đồng thời ở nước ta hàng chục bộ mã kí tự tiếng Việt khác nhau).

Để phát triển nghiên cứu tiếng Việt cũng như đẩy mạnh CNTT ở nước ta hiện nay, cần thiết có sự kết hợp chặt chẽ giữa ngôn ngữ học và CNTT theo 2 hướng:

1. Áp dụng các phương pháp và phương tiện của CNTT tăng cường nghiên cứu lí thuyết và ứng dụng tiếng Việt;

2. Nghiên cứu, giải quyết những vấn đề tiếng Việt trong CNTT.

(Nguyễn Văn Lợi, Phạm Hùng Việt, Ngô Trung Việt. Một số vấn đề tiếng Việt và công nghệ thông tin hiện nay. Ngôn ngữ số 10/2002, trang 1–15)