Menu
Xem lẹ

Trang nhà > Thú vui > Tin học > Thực hành > TCVN 6909 và Unicode

TCVN 6909 và Unicode

Thứ Năm 1, Tháng Giêng 2009

Unicode là gì, từ đâu mà có ? Nó có ảnh hưởng gì với người dùng máy tính ? Đã đến lúc dùng chữ Việt trên máy tính có dễ như lúc dùng các thứ chữ Tây Âu chưa ?

Chữ Việt trong máy tính

Từ lúc máy tính được phổ biến rộng rãi trên các thị trường Bắc Mỹ và Tây Âu, các máy này chỉ hỗ trợ cho bộ chữ cái Latin gồm có: a b c d e f g h i j k l m n o p q r s t u v w x y z. Mỗi chữ tương ứng với một giá trị nhất định (mã số) trong máy. Kể cả chữ thường và hoa, số mã số cần thiết cho chữ Anh là 52 ; nhưng để xử lý các chữ viết Tây Âu khác như Đức, Pháp, Tây Ban Nha, ... các nhà sản xuất máy tính đã dựa vào tập hợp mã số 8-bit, có thể định nghĩa cho 256 ký tự khác nhau, trong đó 128 vị trí đầu bảng được dành cho chữ Anh và các ký tự thông dụng khác. Bảng định nghĩa này được gọi là "bộ mã".

Ngoài các ký tự được ghi trên, bộ ký tự Quốc ngữ cần thêm bảy nguyên âm và phụ âm: ă â đ ê ô ơ ư, và 5 dấu thanh: huyền, sắc, ngã, hỏi, nặng. Nếu dùng phương pháp "tổ hợp" chúng thành các ký tự Quốc ngữ có dấu thì chỉ cần thêm 19 vị trí trong bộ mã 256 ký tự - cho 14 chữ cái (hoa và thường) và 5 dấu thanh là giải quyết được việc mã hoá chữ Việt. Còn nếu muốn mã hoá tất cả các ký tự Quốc ngữ theo phương pháp "dựng sẵn" (precomposed) thì phải đặt thêm 134 mã khác bộ mã chuẩn Hoa Kỳ ASCII, nên không đủ chỗ trong bộ mã 256 chữ khi bộ mã này chỉ còn 128 vị trí có thể dùng được.

Đến đầu thập kỷ 1990, lối xử lý chữ bằng phương pháp "tổ hợp" (compound) bắt đầu được chấp nhận, tức là tách dấu thanh ra khỏi nguyên âm - ví dụ: tổ hợp "a " "â ". Kỹ thuật này xuất hiện đầu tiên trên máy tính Macintosh. Bộ mã chữ Việt cp-1258 do Microsoft và IBM công bố vào năm 1995 cũng theo cách không dựng sẵn.

Khoảng 43 bộ mã khác nhau đã từng ra đời để dùng cho chữ Quốc ngữ, nhưng không bộ mã nào tìm được giải pháp ổn thoả tuyệt đối. Trước đây, hai bộ mã thông dụng nhất ở trong và ngoài nước là VN3 và VNI. VN3 là bộ mã phụ lục chuẩn quốc gia TCVN-5712 do Tổng cục Tiêu chuẩn Việt Nam công bố vào năm 1993, sau một thời gian dài cân nhắc các bộ mã đã có. Còn VNI là sản phẩm của công ty VNIsoft tại California, và vẫn được dùng khá phổ biến ở miền Nam Việt Nam.

Hiện trạng hai bộ mã song hành ở Việt Nam làm cản trở việc trao đổi thông tin thông suốt giữa các cơ quan qua máy tính, và gây rất nhiều khó khăn cho người dùng trong việc tìm kiếm thông tin trên các trang Web.

Unicode và Web

Vấn đề toàn cầu hoá được đặt ra rất sớm trong công nghiệp công nghệ thông tin. Từ năm 1990, tập đoàn Unicode gồm các công ty lớn như IBM, Apple, Sun, Microsoft, Unisys, v.v..., cùng với cơ quan tiêu chuẩn hoá quốc tế ISO gồm các quốc gia làm thành viên đã đặt vấn đề có một bộ mã lớn hơn 8-bit (256 mã số) để xử lý cùng một lúc mọi chữ viết trên thế giới. Sau một thời gian thảo luận sôi nổi, Unicode và ISO đi đến một giải pháp dung hoà giữa 16-bit (65536 mã số) và 32-bit (hơn 4 tỷ mã số), cho phép chứa hơn một triệu mã số.

Tất cả các chữ quốc ngữ nêu trên - dưới cả hai dạng dựng sẵn và tổ hợp - đã được công nhận từ lúc đầu, khi Tiêu chuẩn Unicode [Unicode Standard] và ISO/IEC 10646 được công bố vào những năm đầu thập kỷ 1990. Một ít lâu sau, ký tự đơn vị tiền - đồng, cũng như euro - được đưa vào bộ mã quốc tế.

Có thể nói sự phát triển của Unicode đi song song với sự phát triển của World Wide Web, được giới thiệu vào giữa thập kỷ 1990. Sự bùng nổ của Internet và Web ra khắp thế giới đặt ra yêu cầu trao đổi thông tin đa ngôn ngữ. Cấu trúc kỹ thuật đòi hỏi một giải pháp mà chỉ Unicode mới có thể đáp ứng được. Tuy có một lịch sử hơn mười năm, nhưng chỉ từ hai hoặc ba năm nay Unicode mới tự khẳng định là đang trên đường thay thế bộ mã 8-bit dùng trước đây. Các công ty càng tạo ra công cụ hỗ trợ Unicode - ví dụ như hệ điều hành [operating system], phông chữ [font], ứng dụng cụ thể [applications] - để đáp ứng yêu cầu của thị trường, thì mức độ chấp nhận Unicode lại càng tăng.

Với công cụ cần thiết trong tay, khối lượng trang Web có sử dụng chữ Việt được mã hóa theo Unicode đã tăng lên rất nhanh.

Người dùng Unicode

Bước sang thiên niên kỷ mới, mọi máy tính mới theo hệ Windows - từ máy lớn Windows ME, NT, 2000, XP đến máy nhỏ PocketPC - đều có sẵn Unicode, và có thể sử dụng được chữ Việt ngay từ khi mở máy. Trong máy Windows 2000 và XP, Microsoft cung cấp luôn bàn phím [keyboard] chữ quốc ngữ, tuân thủ chuẩn quốc gia TCVN 6064(2) ( Xin xem chi tiết tại : nomfoundation.org/unicode/Vlbkd-TCVN6064.htm) ; tuy nhiên bàn phím này không tiện bằng bàn phím UniKey hoặc VietKey (xem địa chỉ mạng trong khung trên) có cung cấp thêm chức năng đặt dấu thanh vào đúng nguyên âm thích hợp. Khi muốn đánh chữ Quốc ngữ, chỉ cần cài thêm một trong hai bàn phím này và người dùng không cần cài đặt bất cứ gì khác.

Các công cụ văn phòng thông dụng như: Microsoft Office, Netscape Communicator, Internet Explorer, Outlook Express, MS Messenger, Yahoo!Mail, Hotmail, ... đều dùng được Unicode cho chữ Việt.

Các máy có Windows cũ hơn - 95 hoặc 98, chạy Intel 386 hoặc mới hơn - đều có thể dùng Unicode cho chữ Việt nếu cài đặt thêm những font và bàn phím cần thiết.

Các hệ điều hành khác như Mac OS và Linux đã chuyển sang Unicode, và phần lớn những công cụ quan trọng đang trên quá trình chuyển sang Unicode. Thí dụ như công cụ xử lý văn phòng StarOffice của hãng SUN đang được thử nghiệm trước khi phát hành.

Vì còn nhiều công cụ chỉ có thể xử lý được bộ mã 8-bit, nên giai đoạn chuyển tiếp sang Unicode hiện nay sẽ kéo dài một thời gian. Giai đoạn này rất cần tới các công cụ chuyển mã chính xác và tiện lợi.

Cơ hội Unicode

Theo quyết định của Chính phủ, từ 1/1/2003 mọi thông tin điện tử chữ Việt lưu hành trong và giữa các cơ quan hành chính, giữa chính phủ và người dân chỉ được dùng bộ mã TCVN 6909, tương hợp Unicode.

Trở ngại lớn nhất trong quá trình chuyển đổi này là máy móc và phần mềm lỗi thời, cùng với việc đào tạo và phổ biến thông tin cần thiết đến những người phụ trách hệ thống thông tin các nơi. Đây là những nơi chậm thay đổi nhất vì đã đầu tư thiết bị trong quá khứ. Trong khi mức sử dụng Unicode trong xã hội đã rất phổ biến và thoải mái.

Thống nhất xử lý chữ Việt qua Unicode còn là cơ hội tốt để đưa các chữ viết dân tộc vào chuẩn quốc tế Unicode. Trước mắt đã có đề nghị về chữ Chăm, chữ Thái-Việt, chữ Nôm-Tày, tiếp theo quá trình đưa chữ Nôm. Với phiên bản 3.1 của Unicode, 9299 chữ Nôm đã được đưa vào chuẩn quốc tế. Công việc còn lại vẫn cần nỗ lực kiên trì để hoàn tất.

Cuối cùng Microsoft đã tuyên bố muốn "tiếng Anh chỉ là một ngôn ngữ như các ngôn ngữ khác" ( English is just another language ) thông qua Unicode. Như vậy đã đến lúc chữ Việt hiện hữu như bất cứ mọi chữ viết khác trên máy tính.

Các tiêu chuẩn Việt Nam liên quan

  • TCVN 5712:1999 : bộ mã 8-bit cho chữ Quốc ngữ. Công bố lần đầu năm 1993.
  • TCVN 5773:1993 : kho chữ thuần Nôm.
  • TCVN 6056:1995: kho chữ Nôm.
  • TCVN 6064:1995: bàn phím chữ Quốc ngữ.
  • TCVN 6909:2001: bộ mã 16-bit cho chữ Quốc ngữ - tương thích với Unicode và ISO/IEC 10646. Cơ sở pháp lý để sử dụng Unicode trong các cơ quan hành chính nhà nước.