Quick browsing

Home > Giáo dục > Viết > Chữ Nôm trong tin học

Chữ Nôm trong tin học

"Nôm" characters in Information Technology

Monday 15 January 2007

Giới thiệu

Một trong những mất mát lớn nhất của dân tộc Việt Nam trong những năm chiến tranh là chữ Nôm. Theo nhiều nhà nghiên cứu, chữ Nôm bắt đầu sử dụng vào thế kỷ thứ 10 cho đến đầu thế kỷ này (khoảng những năm 1920). Những kho tư liệu viết bằng chữ Nôm còn lại sau chiến tranh ở rải rác khắp thế giới như Trung Quốc, Pháp, Mỹ, Vatican, Nhật, v.v. Hàng nghìn văn bia ở rải rác khắp nước Việt Nam không có người và của cải để giữ gìn chăm sóc. Số người đọc được chữ Nôm hiện nay có thể đếm trên đầu ngón tay và có nguy cơ bị mất hoàn toàn khi những học giả này qua đời. Những học giả tiền bối của chúng ta đã nhiều năm cố gắng phiên các tác phẩm viết bằng chữ Nôm ra chữ quốc ngữ, như truyện Kiều. Tuy nhiên số này còn nhỏ so với các kho tư liệu to tát như các địa chí, các tác phẩm nghệ thuật khác như chèo, tuồng, hát bộ, v.v. ghi bằng chữ Nôm.

Hiện nay có nhiều cố gắng tại Việt Nam và ngoài nước để gây lại chữ Nôm, như tự điển chữ Nôm của Ðỗ Thông Minh (tại Nhật), các nghiên cứu của Nguyễn Khắc Kham, Nguyễn Ðình Hoà (tại Mỹ), và nhiều nghiên cứu công phu như của cụ Hoàng Xuân Hãn, Ðào Duy Anh, Vũ Văn Kính, Nguyễn Quang Hồng, Viện Hán Nôm, Viện Ngôn ngữ học, Hội Ngôn ngữ học Việt Nam, v.v.

Bài này không nhằm mục đích nghiên cứu sâu về chữ Nôm. Tôi chỉ xin giới thiệu một công trình đưa chữ Nôm vào tin học của Tiểu ban mã chuẩn chữ Nôm (thuộc Ban Tiêu chuẩn Công nghệ Thông tin, Tổng cục Tiêu chuẩn - Ðo lường - Chất lượng) trong những năm vừa qua.

Sơ lược về ngôn ngữ và chữ viết

Truyện Kiều có câu:

"Lời lời châu ngọc, hàng hàng gấm thêu"

Khi nói, ta nói từng tiếng một. Tiếng nối nhau thành hàng, thành chuỗi, như chuỗi hạt. Câu nói nối kết nhau như thêu một bức gấm. Chữ viết cũng thế - người ta chỉ viết được từng nét một nối nhau thành chuỗi ký tự. Trong ngành ngôn ngữ học, ta nói ngôn ngữ có tuyến tính (linearity).

Số câu nghe được và học được trọn đời của một người Việt có giới hạn, nhưng số câu ta nói được là vô hạn. Số chữ ta biết được có giới hạn, số câu mẫu và cụm từ tạo thành câu có giới hạn, nhưng số câu chúng tạo thành vô hạn. Những câu mới của người nói mà người nghe hiểu được "tự nhiên như đã nghe được từ trước" cho ta thấy ngôn ngữ có tính hệ thống và tính phổ quát (là người ai cũng có).

Chữ viết là một hệ thống ký tự ghi lại tiếng nói của con người. Tất cả những hệ thống ký tự hiện nay đều không thể ghi lại đầy đủ tiếng nói, kể cả các ký tự phiên âm quốc tế. Ví dụ, ta viết câu "em đi học", người đọc không thể biết "em" là người nói (tiếng Anh, "I"), hay "em" là người nghe (tiếng Anh, "you"), hay "em" là người thứ ba (tiếng Anh, "he/she"). Ta cũng không thể biết đó là câu sai khiến, câu hỏi, hay câu xác định, hay câu kể chuyện - dù ta có bỏ thêm dấu "?", dấu thang "!", dấu dứt câu "." hay dấu lửng "...".

Tiếng Việt nằm trong nhóm Môn-Khơme, thuộc ngữ hệ Nam Á. Trong tiếng Việt, mỗi tiếng (syllable) khi viết xuống thành một chữ (written syllable) đứng riêng biệt với các chữ khác. Trong tin học, ta nói chữ đứng giữa hai dấu cách (delimiters). Một từ (word) trong tiếng Việt có một hay nhiều tiếng (số nguyên dương), ví dụ bút, đồng hồ, nhà cửa, ô-tô, v.v.

Chữ quốc ngữ dùng các ký tự la-tinh, như a, b, c, d, đ, ...; các dấu mũ (circumflex), dấu ngắn hay dấu trăng (breve), dấu râu (horn) dành cho các nguyên âm a, ă, â, e, ê, o, ô, ơ, u, ư; các dấu thanh như không dấu (no tone mark) cho thanh ngang (high level tone), dấu huyền (grave tone mark) cho thanh huyền (low level tone), dấu sắc (acute tone mark) cho thanh sắc (high-rising tone), dấu nặng (dot below tone mark) cho thanh nặng (creaky tone), dấu hỏi (hook above tone mark) cho thanh hỏi (low rising tone), dấu ngã (tilde tone mark) cho thanh ngã (creaky rising tone). Chữ quốc ngữ chuẩn gồm có 17 con chữ phụ âm: b, c, d, đ, g, h, k, l, m, n, p, q, r, s, t, v, x, 12 con chữ nguyên âm: a, ă, â, e, ê, i, o, ô, ơ, u, ư, y, và 5 dấu thanh: huyền, sắc, nặng, hỏi, ngã.

Người Việt Nam đánh vần, "â mờ âm - thờ âm thâm sắc thấm" để tả cách viết của chữ thấm. Thanh sắc đọc cuối cùng, và thường là nét cuối cùng khi viết. Dấu sắc viết lên trên con chữ nguyên âm â. (Ðúng ra, tuy thanh sắc nằm trên vần âm, nhưng khi viết ta vẫn coi như nằm trên nguyên âm â. Ðiều này có nghĩa là khi viết, việc bỏ dấu sắc lên nguyên âm chỉ là quy ước). Cách đánh vần quôc ngữ như thế cho ta biết người Việt Nam "phân tích" một tiếng theo các con chữ (â, m, t, h, sắc), các con chữ lập thành phần vần (âm), phần phụ âm đầu (th), và cuối cùng là thanh (sắc - high rising). Ðánh vần như thế giúp ta hiểu được cách nói lái, cách tạo từ láy, cách chơi chữ, cách gieo vần trong thơ, v.v. Ðối với người Việt Nam, tiếng, vần và thanh là ba đơn vị quan trọng hơn các con chữ cái và từ. Ta nói, Việt Nam hai tiếng ngọt ngào, nhưng không nói Việt Nam một từ ngọt ngào... Chữ Nôm nói chung sử dụng những âm và tiếng có sẵn trong tiếng Hán-Việt và thay đổi hình dáng của chúng để ghi lại những tiếng có sẵn trong tiếng Việt.

Ta nói, tiếng Việt có hai cách viết, một cách viết theo chữ quốc ngữ, một cách viết theo chữ Nôm.

Khái niệm về chuẩn công nghệ thông tin

Chuẩn công nghệ thông tin là một hệ thống mã (số) biểu thị hệ thống chữ viết dùng để trao đổi thông tin. Máy tính là công cụ chính. Mỗi mã là một con chữ cái trong tiếng Việt chuẩn. Theo chuẩn trao đổi thông tin chữ quốc ngữ TCVN 5712:1993, â và dấu sắc là hai đơn vị chính tả (orthographic units) và mỗi đơn vị có một mã riêng biệt. Một thành tố chính tả (orthographic element), ví dụ như ấ, được tạo bằng hai cách: dùng mã 202 (cơ số 10) (ấ) hoặc dùng hai mã 169 (â) tiếp theo mã dấu kết nối 179 (dấu sắc - acute combining mark). Ta nói, trong chính tả tiếng Việt, mã 202 "tương đương" với hai mã 169 và 179. Một điểm cần nhớ là chuẩn thông tin ở mỗi thứ tiếng có khác nhau - do đó chuẩn ISO 8859 La-tinh-1 cho các thứ tiếng Âu châu đặt mã 202 cho con chữ ấ, thay vì ấ trong tiếng Việt.

Chúng ta "đưa" mã vào bộ nhớ của máy tính bằng cách sao chép hoặc nhấn từ bàn phím (đánh máy chữ). Khi đánh máy, mỗi phím, ví dụ như a, chuyển vào bộ nhớ của máy tính con số 97. Và hai phím Shift+a chuyển vào bộ nhớ con số 65. Trong máy tính, số 97 chuyển thành ảnh chữ a (bitmap - ma trận bit) phóng lên màn hình và máy in.

Bộ nhớ (memory) và bộ xử lý (processor) của máy tính cơ bản vẫn nối đuôi nhau (sequential) - ta nói, máy tính vận hành và ghi nhớ theo tuyến tính. Ðặc tính này không phải là ngẫu nhiên mà tương tự với ngôn ngữ sống. Hệ thống chuẩn trao đổi thông tin và chuẩn bàn phím trong máy tính cho các loại chữ viết giúp ta hiển thị tiếng Việt đúng, đơn giản và đầy đủ. Ba nguyên tắc này, dựa trên cách ta đánh vần ở trường học, là ba nguyên tắc quan trọng trong việc lập chuẩn chữ Nôm.

Vài nét về chữ Nôm

Chữ Nôm là thứ chữ viết được gọi là biểu ý (tiếng Anh, "ideographic") - là thứ chữ ghi lại nghĩa hoặc hình vẽ. Tuy nhiên, không ai có thể xác định: "nghĩa là gì ?"

Ta nói con dao, tờ giấy, cục đá, nước đá, cái đá, cuộn chỉ, mũi kim, cuốn sách, v.v. trong tiếng Việt thì chữ cái, con, tờ, cục, nước, cuộn, mũi, cuốn, v.v. có thể gọi là nghĩa, nhưng đúng ra phải gọi là những chữ phân loại những chữ kế tiếp (theo một quy ước nào đó của mỗi ngôn ngữ).

Khi ta nói câu Cho hắn một ... đá, thì tiếng đá chỉ rõ nghĩa khi ta thêm tiếng cái hoặc tiếng hòn vào chỗ ba chấm "...". Khi ta viết hai chữ (cái) "đá" và (hòn) "đá" bằng chữ Nôm với cách dùng bộ túc (loại chân) chỉ động từ đá, và bộ thạch (loại đá) để chỉ hòn đá, thì những "bộ" này thật ra cũng chỉ là những ký tự để phân loại, giống như cái và hòn. Nếu "bộ" là để chỉ nghĩa, thì trong chữ Nôm ta không biết nên viết "đá" trong câu "đá lông nheo" thành:

  • theo bộ mịch (loại tơ),
  • theo bộ mục (loại mắt),
  • theo bộ tiêu (loại tóc), hay
  • theo bộ túc (loại chân), v.v.

Ví dụ trên cho ta thấy, tuy bộ là tiếng phân loại, nhưng hệ thống "bộ" của chữ Hán (như túc, thạch, mịch, mục, tiêu, v.v.) và hệ thống các tiếng phân loại trong tiếng Việt (như cái, con, hòn, mũi, sợi, v.v.) không giống nhau. Suy luận từ đó, lập chuẩn thông tin cho chữ Nôm (có thể nói, kể cả chữ Hán) dựa vào hệ thống "bộ" chữ Hán (cụ thể theo hệ thống 214 bộ trong Tự điển Khang Hy) thì không bao giờ đúng và không bao giờ đầy đủ.

Chữ Nôm và chữ Hán viết mỗi chữ trong một khung vuông. Giống như chữ quốc ngữ, mỗi chữ đều đứng giữa các dấu cách, và có thể bẻ ra thành những bộ phận nhỏ nhận ra được. Những bộ phận nhỏ có thể tìm thấy đều đặn trong những chữ khác, ví dụ, mập, ỏng, phì, nục, béo, bọng, mảy, v.v. đều có một bộ phận được gọi tên là "bộ" nhục (loại thịt). Khi đánh vần chữ đá, ta nói: viết túc trước, viết đa sau. Khi đánh vần chữ kép (tiếng Anh, "compound"), ta nói: viết nhị trên, viết kiếp dưới. Tuy là viết lúc ngang, lúc dọc trong khung vuông, nhưng ta vẫn "coi như" viết ngang, giống như trong chữ quốc ngữ: a sắc á. Tuy dấu sắc viết trên chữ a, nhưng ta vẫn "coi như" viết sau chữ a. Ðây là điểm quan trọng giúp ta hiểu được tuyến tính (linearity) trong hệ thống chữ viết biểu ý. Hiểu như thế giúp ta sắp đặt lại các bộ phận cấu thành cơ bản nhất của chữ Nôm (hay loại chữ biểu ý) trong một khung vuông. Do đó, cấu tạo của chữ biểu ý không hẳn phức tạp như chúng ta thường nghĩ.

Trong một nghiên cứu về tự điển Khang Hy (Trung Quốc) của hai học giả Zhang Zhoucai (Trung quốc) và Lu Chin (Ðài Loan), những chữ gồm hai bộ phận xếp chồng trên-dưới (mẫu b, khoảng 12.000 chữ, 24%) và xếp ngang trước-sau (mẫu a, khoảng 32.000 chữ, 65%) trong một khung vuông chiếm 89% toàn bộ chữ trong tự điển. Tương tự, trong 501 chữ thuần Nôm trong bộ mã chuẩn TCVN 5773:1993 (xem trang mẫu kèm theo cuối bài), Ngô Thế Long thuộc Viện Hán Nôm cho biết cách ghép trước-sau (mẫu a, gồm 330 chữ, 66%) và cách ghép trên-dưới (mẫu b, gồm 90 chữ, 18%) chiếm 84% số chữ.

Viết chữ Nôm

Chữ Nôm viết theo cách viết chữ Hán và dùng chữ Hán để làm các bộ phận tạo chữ. Chữ thuần Nôm là những chữ chỉ có ở nước ta. Chữ Nôm Hán là những chữ Hán đọc theo tiếng Việt. Chữ Hán-Việt là chữ Hán đọc theo âm Việt mượn của tiếng Hán thời nhà Ðường. Ngoài ra, ở Việt Nam còn có các chữ biểu ý khác như chữ Nôm Tày của người Tày. Cách đọc chữ Nôm Việt có thể giản lược như sau:

a) Viết chữ Hán, đọc kiểu Hán-Việt:

  • chữ đọc kiểu Hán-Việt là "tài".
  • chữ đọc Hán-Việt là "vụ", Hán-Việt cổ là "mùa".

b) Viết chữ Hán, đọc kiểu Việt:

  • chữ đọc kiểu Hán-Việt là "dịch" (nách), đọc kiểu Việt là "nách".
  • chữ đọc kiểu Hán-Việt là "một" (chìm), đọc kiểu Việt là "một" (số 1).

c) Viết chữ Hán, đọc gần giống Hán-Việt:

  • chữ đọc kiểu Hán-Việt là "biệt" (xa), đọc kiểu Việt là "biết".

d) Gộp âm Hán-Việt các phần chữ Hán:

  • chữ đọc là "trăng", gồm hai chữ "ba" + "lăng" [> blăng (chữ Việt trung đại)]: trăng.

e) Gộp "nghĩa" các phần chữ Hán:

  • chữ đọc kiểu Việt là "trùm", gộp nghĩa chữ Hán-Việt "nhân" (người) + chữ Hán-Việt "thượng" (trên).

f) Dùng một chữ Hán để chỉ loại và một chữ Hán để chỉ âm đọc gần âm Hán-Việt:

  • chữ đọc kiểu Việt là "tanh", gồm chữ "nhục" (loại thịt) và gần âm Hán-Việt chữ "tinh".
  • chữ đọc kiểu Việt là "cỏ", gồm chữ "thảo" (loại cỏ) và gần âm Hán-Việt chữ "cổ".

g) Dùng âm Hán-Việt một chữ Hán chỉ cách đọc khác:

  • chữ đọc kiểu Việt là "phên", gồm âm Hán-Việt chữ "phiến" và dấu "cá" (dấu đọc trệch vần).

h) Dùng một phần chữ Hán để chỉ âm đọc:

  • chữ đọc là "khề", gồm chữ Hán-Việt "kỳ" cắt bỏ một chân phải.
  • chữ đọc là "khà", gồm chữ Hán-Việt "kỳ" cắt bỏ một chân trái.
  • chữ đọc là "khoai", gồm chữ Hán-Việt "thổ" (loại đất) và một phần là âm Hán-Việt chữ "khoa", cắt bỏ phần trên.
  • chữ đọc là "hũ", gồm chữ Hán-Việt "thổ" (loại đất) và một phần là âm chữ "hữ", cắt bỏ phần trước.

[Xem thêm Lê Văn Quán và các bài cấu tạo chữ Nôm.]

Các bộ mã chuẩn chữ Nôm dùng trong trao đổi thông tin

Kể từ năm 1993, Tổng cục Tiêu chuẩn - Ðo lường - Chất lượng Việt Nam in hai quyển tiêu chuẩn chữ Nôm: 1) TCVN 5773:1993 gồm 2.357 chữ (gồm 1.775 chữ thuần Nôm) và 2) TCVN 6056:1995 gồm 3.349 chữ mượn hoàn toàn chữ Hán. Mỗi chữ gồm số thứ tự, hình dáng chữ, xuất xứ (từ tự điển nào) và cách đọc (viết theo chữ quốc ngữ). Chữ Nôm được tạo theo phông bitmap 24x24 và 96x96. Cơ quan in hai tiêu chuẩn này có thể sắp chữ theo thứ tự 214 bộ của Khang Hy Tự điển. Tuy nhiên, việc dùng 214 bộ còn đang thảo luận vì chữ thuần Nôm, chữ thuần Triều (Triều Tiên) và chữ thuần Nhật (kể cả chữ Trung Quốc) gồm nhiều "bộ" không nằm trong Khang Hy.

Nhóm "Nghiên cứu chữ biểu ý - Ideographic Rapporteur Group" (gồm các Uỷ ban tiêu chuẩn quốc gia của Trung Quốc, Triều Tiên, Nhật, Việt Nam, Ðài Loan, Singapore, v.v.) do Tổ chức Tiêu chuẩn Quốc tế ISO/IEC JTC 1/SC 2/WG 2 lập ra năm 1993 (Việt Nam là một trong 4 nước tham gia đầu tiên) vừa họp xong tại TP Hồ Chí Minh (15-19 tháng 12, 1997) trong chương trình đưa các loại chữ biểu ý vào kho chữ quốc tế. Sự tham gia này giúp Việt Nam thấy được toàn bộ công trình kỹ thuật của quốc tế lập kho chữ biểu ý, rút ngắn công trình xây dựng chuẩn chữ Nôm của mình.

Việc in hai tiêu chuẩn chữ Nôm, tuy còn sơ khởi (chưa có chuẩn bàn phím), nhưng đã được hai tổ chức Unicode và ISO (Tổ chức Chuẩn hoá Quốc tế) chấp thuận. Trước nhất, việc này giúp cho việc in ấn, truyền thông chữ Nôm (hơn tám mươi năm nay không in được chữ Nôm, phải vẽ tay), và giúp cho thư viện cũng như các nhà nghiên cứu liệt kê, phiên thành chữ quốc ngữ, hoặc in lại các tài liệu chữ Nôm cho nhiều nơi cần nghiên cứu, sử dụng. Sau nữa, việc này giúp cho việc học và giảng dạy chữ Nôm, nhất là cho các sinh viên Việt Văn bậc trung học và đại học dễ hơn. Cuối cùng, nó giúp các nhà bảo tàng nhận dạng chữ Nôm (tự động) và phiên thành chữ quốc ngữ (tự động) trong việc bảo tồn và truyền bá các kho tàng chữ Nôm.

Việc sử dụng máy tính, lập chuẩn thông tin, đối chiếu Nôm-quốc ngữ, đưa chữ Nôm vào kho chữ quốc tế... là những bước khởi đầu rất nhỏ để gây dựng lại sử liệu, kiến thức và kho tàng chữ Nôm bị chiến tranh gần như xoá sạch. Những bước tiếp tục như quét lưu trữ, nhận dạng và phiên thành chữ quốc ngữ tự động, v.v. còn nhiều phức tạp và cần có sự tham gia của những học giả trẻ trong chúng ta...

Ngô Thanh Nhàn, 1997
http://www.cs.nyu.edu/~nhan/

Tài liệu tham khảo

1. Ðào Duy Anh. 1975. Chữ Nôm: nguồn gốc, cấu tạo, diễn biến. Nhà xuất bản Khoa học Xã hội. Hà Nội.

2. Huình-Tịnh Paulus Của. 1895. Ðại Nam Quấc âm tự vị. Sàigòn. In lại: Nhà xuất bản Xuân Thu.

3. Lê Văn Quán. 1981. Nghiên cứu về chữ Nôm. Nhà xuất bản Khoa học Xã hội. Hà Nội.

4. Nguyễn Du. 1993. Truyện Kiều: đối chiếu chữ Nôm - Quốc ngữ, do Vũ Văn Kính khảo lục. Viện Bảo tàng Lịch sử Tp. Hồ Chí Minh.

5. Tiêu chuẩn Việt Nam. TCVN 5712:1993. Công nghệ thông tin: Bộ mã chuẩn 8-bit lí-tự Việt dùng trong trao đổi thông tin. Hà Nội.

6. Tiêu chuẩn Việt Nam. TCVN 6064:1995. Công nghệ thông tin: Bố trí bàn phím chữ Việt cho các hệ văn phòng. Hà Nội.

7. Tiêu chuẩn Việt Nam. TCVN 5773:1993. Công nghệ thông tin: Bộ mã chuẩn 16-bit chữ Nôm dùng trong trao đổi thông tin - Phần 1: Chũ Nôm Việt. Hà Nội.

8. Tiêu chuẩn Việt Nam. TCVN 6056:1995. Công nghệ thông tin: Bộ mã chuẩn 16-bit chữ Nôm dùng trong trao đổi thông tin: Chữ Nôm Hán. Hà Nội.

9. Vũ Văn Kính & Nguyễn Quang Xỹ. 1971. Tự điển chữ Nôm. Trung tâm Học liệu. Sàigòn.

10. Viện Ngôn ngữ học. 1976. Bảng tra chữ Nôm. Nhà xuất bản Khoa học Xã hội. Hà Nội.