Trang nhà > Lịch sử > Cổ đại > Nguồn gốc người Việt (4): VIETIC
Nguồn gốc người Việt (4): VIETIC
Đ.N.Giao
Chủ Nhật 11, Tháng Năm 2014, bởi
Ở phần 3 ta đã tìm hiểu haplogroup O2a1-M95* trong sắc dân Việt Nam (viết tắt “VN”) và cho rằng tổ tiên của đám đó có lẽ đã ra đời ở một nơi giữa Lào và Thái hơn hai chục ngàn năm trước rồi từ đó lan ra khắp Đông nam Á, lên tới nam Trung Quốc (viết tắt “TQ”) và sang tận đông bắc Ấn Độ.
Đó là một bức tranh nhìn cách xa 20 ngàn năm, còn mờ căm; ta phải làm sao “zoom” nó lại gần chừng vài ngàn năm may ra mới thấy hình thù gì ở trong.
Trước hết, ta cần dượt thêm một bài học vỡ lòng.
“Microsatellite”, còn gọi “short tandem repeat” (viết tắt “STR”), là một chuỗi ngắn gồm vài nucleotide lặp lại chừng chục lần, thí dụ cái STR trên Y-chromosome gọi là “DYS393” gồm có chuỗi AGAT lặp lại 15 lần:
GTGGTCTTCTACTTGTGTCAATAC/AGAT/AGAT/AGAT/AGAT/AGAT/AGAT/AGAT/AGAT/AGAT/AGAT/AGAT/AGAT/AGAT/AGAT/AGAT/ATGTATGTCTTTTCTATGAGACATACCTCATTTTTTGGACTTGAGTTC
Tùy theo số lần lặp lại chuỗi AGAT mà ta có những “allele” khác nhau của DYS393, với những “value” (trị số) khác nhau như 13 lần, 14 lần, 15 lần; ở người VN allele của DYS393 thường là 14, theo Koji Dewa et al [1]. Hết thảy những trị số allele đó gộp lại thành cái “haplotype” của mỗi người, thí dụ: DYS19=15, DYS389I=14, DYS389II=30, DYS390=24, DYS391=10, DYS392=13, DYS393=13, DYS439=12. Vị trí (locus) của những cái STR đó trên Y-chromosome như trong hình 1.
- Hình 1
Haplotype của Napoleon I ở đây, nếu bạn tò mò.
(Còn “minisatellite”, là một chuỗi dài gồm vài chục nucleotide lặp lại vài chục lần, thì không nói trong bài này.)
STR truyền từ người cha sang người con không phải nguyên xi như SNP hoặc indel, mà có một “mức đột biến” (mutation rate) nhỏ xíu chừng 0.0028 /đời, theo số liệu của Manfred Kayser et al khảo sát 15 cái STR [2]. “Đột biến” (mutation) nghĩa là khi DNA copy từ người cha sang người con, số lần lặp lại chuỗi nucleotide ở một cái STR nào đó thì không giữ nguyên mà tăng thêm 1 hoặc giảm bớt 1 (có khi nào tăng thêm 2 hoặc giảm bớt 2 thì người ta chưa chắc). Nếu “mức đột biến” của cái STR nào cũng là 0.002 /đời, tức là 2/1000 đời hoặc 1/500 đời (1 “đời” nghĩa là 1 lần DNA copy từ cha sang con), ta hiểu rằng:
- muốn thấy 1 cái STR bị mutation, cần 500 đời,
- muốn thấy 1 hoặc 2 cái STR bị mutation, cần 500/2 = 250 đời,
- muốn thấy 1 hoặc 2, 3,…, 25 cái STR bị mutation, cần 500/25 = 20 đời,
- muốn thấy 1 hoặc 2, 3, …, 500 cái STR bị mutation, chỉ cần 500/500 = 1 đời.
Như vậy:
- hai đực rựa có 1 cái STR giống nhau (tức là mang cùng allele của cái STR đó) ắt là có “ông tổ chung gần nhứt” (most recent common ancestor, viết tắt “MRCA”) trong vòng 500 đời (vì cái STR đó truyền từ MRCA xuống vẫn còn nguyên trong vòng 500 đời),
- hai đực rựa có 2 cái STR giống nhau ắt là có MRCA trong vòng 250 đời,
- hai đực rựa có 25 cái STR giống nhau ắt là có MRCA trong vòng 20 đời,
- hai đực rựa có 500 cái STR giống nhau ắt là có MRCA trong vòng 1 đời (nghĩa là, họ có chung người cha).
Xác suất để “hai đực rựa có 25 cái STR giống nhau thì có MRCA trong vòng 20 đời”, thí dụ như vậy, là cỡ 87% (xem hình 2, xác suất là trục dọc, số đời là trục ngang).
- Hình 2
Muốn biết “xác suất là bao nhiêu để hai đực rựa giống nhau mấy cái STR thì có MRCA cách nay mấy đời?” xin xem website của Moses Walker.
Thí dụ hai đực rựa mang cùng allele của một gói 25 cái STR và lấy “mức đột biến” 0.002 thì xác suất để họ có MRCA trong vòng 20 đời là 86.5% (hình 3).
- Hình 3
Nếu lấy “mức đột biến” 0.003 thì xác suất để có MRCA trong vòng 20 đời là 95% (hình 4).
- Hình 4
Người ta biết hơn 300 cái STR trên Y-chromosome, nhưng dù 2 đực rựa mang cùng allele của 500 cái STR chăng nữa, xác suất để họ có chung một người cha cũng là 86.5% thôi (hình 5).
- Hình 5
SNP (single nucleotide polymorphism) là những cái xảy ra một lần (unique event polymorphism) rồi sau đó cứ y vậy mà truyền cho những đời sau và những ai mang cùng SNP thì thuộc về một haplogroup (thí dụ 2 cha con).
Còn mutation ở STR thì lâu lâu xảy ra một lần, không tùy thuộc haplogroup nào, nên 2 đực rựa mang haplotype giống nhau không nhứt thiết thuộc về một haplogroup mà có thể thuộc về những haplogroup khác nhau với những xác suất khác nhau, thí dụ như bảng dưới đây trích từ website của Whit Athey (hình 6).
- Hình 6
Trong hình 6, nếu chọn vùng South Asia (Nam Á) rồi điền haplotype này:
DYS19 | DYS389I | DYS389II | DYS390 | DYS391 | DYS392 | DYS393 | DYS439 |
15 | 14 | 31 | 24 | 10 | 13 | 14 | 12 |
…thì sẽ ra lời giải là người mang haplotype đó gần như chắc chắn thuộc về haplogroup O2 với xác suất 99.5%; thực ra haplotype đó là của một đực rựa O2a1-M95 người VN [3].
Y-Chromosome Haplotype Reference Database (viết tắt “YHRD”) chứa dữ liệu của vài trăm ngàn haplotype thu được từ khắp nơi trên trái đất; bạn đã biết haplotype của mình thì có thể tra trong đó coi có bao nhiêu đực rựa ở lục địa nào, ở nhóm dân nào, mà mang cùng haplotype với mình (nhưng không biết họ thuộc về haplogroup nào). Thí dụ cái haplotype của gã O2a1-M95 người VN trong hình 6, nếu dùng YHRD tra thì thấy có 8 đực rựa mang cái đó (mấy chấm đỏ trong hình 7).
- Hình 7
Tới đây ta tạm ngưng bài học, nếu muốn tìm hiểu thêm, xin xem:
- Sorenson Molecular Genealogy Foundation,
- National Institute of Standards and Technology,
- Genebase, v.v..
***
Bây giờ, ta có dữ liệu gồm tần suất allele của 7-8 cái STR ở 1,003 đực rựa O2a1*-M95 trong 12 nhóm dân:
Nhóm | 8* | STR | Số mẫu | Tác giả | ||
1 | KH | Cambodian, nói tiếng Austroasiatic | 8* | 3 | Chaubey et al [4] | |
2 | Cham | Chàm, nói tiếng Austronesian | 8* | 18 | He et al [3] | |
3 | CN | những nhóm thiểu số ở nam TQ | 8* | 11 | Chaubey et al [4] | |
4 | ID | những nhóm nói tiếng Austronesian ở Indonesia | 8* | 88 | Chaubey et al [4] | |
5 | India | những nhóm nói tiếng Austroasiatic ở Ấn Độ | 8* | 199 | Chaubey et al [4] | |
6 | L | những nhóm nói tiếng Austroasiatic ở Lào | 8* | 362 | Cai et al [5] | |
7 | L-T | Lào và Thái, nói tiếng Tai-Kadai | 8* | 12 | He et al [3] | |
8 | MA | những nhóm nói tiếng Austronesian ở Malaysia | 8* | 10 | Chaubey et al [4] | |
9 | TW | những nhóm nói tiếng Austronesian ở Taiwan | 8* | 15 | Chaubey et al [4] | |
10 | VN | Việt | 8* | 9 | He et al [3] | |
11 | HM | những nhóm nói tiếng Hmong-Mien ở nam TQ | 7** | 62 | Cai et al [5] | |
12 | HN | những nhóm nói tiếng Tai-Kadai ở đảo Hainan (TQ) | 7** | 214 | Li et al [6] | |
Tổng | 1003 |
* 8 STR là DYS19, DYS389I, DYS389II, DYS390, DYS391, DYS392, DYS393, DYS439.
** 7 STR là DYS19, DYS389I, DYS389II, DYS390, DYS391, DYS392, DYS393.
Bài tập mà ta sẽ làm, không phải là so sánh một gã nào trong nhóm này với một gã nào trong nhóm nọ, mà là so sánh nguyên một nhóm này với nguyên một nhóm nọ.
Trước hết, ta xem dữ liệu 8 STR của 10 nhóm dân. Đưa dữ liệu này vào chương trình PopTree2 [7], ta được một bảng gọi là “distance matrix” cho biết “khoảng cách gene” (genetic distance, viết tắt “GD”) giữa mỗi 2 nhóm (hình 8).
- Hình 8
Trong hình 8, số 1 là nhóm Cambodian, số 2 là nhóm Chàm,… Trị số 0.418 giữa nhóm Cambodia và nhóm Chàm cho biết GD giữa 2 nhóm đó; trị số càng nhỏ thì 2 nhóm có GD càng ngắn, tức là có haplotype càng giống, tức là có MRCA cách nay càng ít đời, nói nôm na là có bà con càng gần. Ta thấy nhóm VN gần với nhóm thiểu số Lào hơn những nhóm khác (GD=0.083).
Từ số liệu hình 8, PopTree 2 lập một cái “phylogenetic tree” tạm gọi là “cây phylo” cho biết mối liên can giữa 10 nhóm dân (hình 9).
- Hình 9
Trong hình 9, những đoạn thẳng nằm ngang là GD giữa hai nhóm, mỗi cái chạc ba (node) từ đó tách ra hai nhóm là nơi có MRCA của hai nhóm đó. Ta thấy 10 nhóm được chia ra 2 “clade”, mỗi clade gồm vài nhóm và MRCA của những nhóm đó.
Một nhóm trong clade 1 với một nhóm trong clade 2, thí dụ Malaysia với VN, thì cách xa nhau lắm (GD=1.925), hai nhóm như vậy chẳng có MRCA, nói nôm na là không có bà con gì hết – nhưng tất nhiên có một “ông tổ chung” (common ancestor) cách nay xa lắm, cỡ chục ngàn năm là ít, như đã nói ở đầu bài.
Thực ra, GD có thể đo theo vài cách khác nhau; GD trong hình 8 là đo theo (dm)2. Hình 10 cho thấy GD đo theo DSW.
- Hình 10
Hình 10 cũng cho thấy nhóm VN gần với nhóm thiểu số Lào hơn những nhóm khác (GD=0.033). Cây phylo lập theo DSW như hình 11.
- Hình 11
Kế đến, ta xem dữ liệu 7 STR của 12 nhóm dân. Đưa dữ liệu này vào PopTree 2 ta được distance matrix theo (dm)2 như hình 12.
- Hình 12
Ta thấy nhóm VN cũng gần với nhóm thiểu số Lào hơn những nhóm khác (GD=0.095). Cây phylo lập theo (dm)2 như hình 13.
- Hình 13
Distance matrix theo DSW như hình 14.
- Hình 14
Một lần nữa, ta thấy nhóm VN gần với nhóm thiểu số Lào hơn những nhóm khác (GD=0.038). Cây phylo lập theo DSW như hình 15.
- Hình 15
Như vậy, có hai clade khác nhau:
- clade 1 gồm 3 nhóm ở đảo: Indonesia, Malaysia và Taiwan,
- clade 2 gồm 9 nhóm ở đất liền: VN, Cambodian, thiểu số Lào, Lào-Thái, Chàm, Ấn, Hmong-Mien, Hainan và thiểu số TQ.
Bây giờ, ta xem riêng dữ liệu 8 STR của VN và 18 nhóm thiểu số Lào:
Nhóm | Số mẫu | Tác giả | |
1 | Aheu | 20 | Cai et al [5] |
2 | Alak | 16 | Cai et al [5] |
3 | Bit | 12 | Cai et al [5] |
4 | Brau | 19 | Cai et al [5] |
5 | Inh | 27 | Cai et al [5] |
6 | Jeh | 14 | Cai et al [5] |
7 | Kataang | 5 | Cai et al [5] |
8 | Katu | 31 | Cai et al [5] |
9 | Khmu | 30 | Cai et al [5] |
10 | Lamet | 28 | Cai et al [5] |
11 | Laven | 20 | Cai et al [5] |
12 | Mal | 30 | Cai et al [5] |
13 | Ngeq | 17 | Cai et al [5] |
14 | Oy | 30 | Cai et al [5] |
15 | So | 18 | Cai et al [5] |
16 | Suy | 20 | Cai et al [5] |
17 | Talieng | 22 | Cai et al [5] |
18 | VN | 9 | He et al [5] |
19 | Xinhmul | 3 | Cai et al [5] |
Tổng | 371 |
Đưa dữ liệu vào chương trình SPADE [8] ta được 1 cái “similarity matrix” cho biết mức độ “giống nhau” giữa mỗi 2 nhóm ở từng cái STR; bảng 1 trích ra từ 8 cái matrix này.
Nhóm | DYS19 | DYS389I | DYS389II | DYS390 | DYS391 | DYS392 | DYS393 | DYS439 | |
1 | Aheu | 0,888 | 0,685 | 0,918 | 0,819 | 1,027 | 1,026 | 0,899 | 0,555 |
2 | Alak | 0,892 | 0,718 | 0,818 | 0,962 | 0,917 | 1,000 | 1,038 | 0,957 |
3 | Bit | 1,000 | 0,848 | 0,702 | 0,650 | 0,650 | 0,966 | 1,020 | 0,989 |
4 | Brau | 1,000 | 0,819 | 0,949 | 0,884 | 0,702 | 0,985 | 1,022 | 0,864 |
5 | Inh | 0,948 | 1,084 | 1,067 | 0,808 | 0,899 | 0,966 | 1,016 | 1,036 |
6 | Jeh | 0,973 | 0,615 | 0,690 | 1,066 | 1,077 | 1,055 | 1,014 | 1,046 |
7 | Kataang | 1,000 | 0,615 | 1,529 | 1,143 | 0,727 | 0,966 | 0,982 | 0,982 |
8 | Katu | 0,652 | 1,022 | 0,922 | 1,061 | 0,516 | 1,012 | 0,982 | 1,017 |
9 | Khmu | 0,717 | 1,084 | 0,985 | 0,670 | 1,014 | 0,998 | 1,033 | 0,907 |
10 | Lamet | 0,370 | 0,933 | 0,694 | 0,960 | 1,068 | 0,881 | 0,948 | 0,930 |
11 | Laven | 0,855 | 1,042 | 0,860 | 0,792 | 0,589 | 1,016 | 0,741 | 0,534 |
12 | Mal | 0,965 | 0,886 | 0,917 | 0,599 | 0,728 | 0,983 | 1,041 | 0,185 |
13 | Ngeq | 0,959 | 0,698 | 0,528 | 0,714 | 1,075 | 1,044 | 1,034 | 1,013 |
14 | Oy | 1,000 | 1,068 | 0,874 | 0,684 | 1,035 | 0,966 | 1,025 | 0,588 |
15 | So | 0,948 | 0,640 | 0,701 | 1,030 | 0,976 | 0,996 | 1,045 | 0,956 |
16 | Suy | 0,757 | 0,976 | 0,929 | 0,639 | 1,056 | 1,026 | 0,955 | 1,022 |
17 | Talieng | 0,810 | 0,636 | 0,566 | 1,020 | 0,959 | 0,814 | 1,019 | 0,534 |
18 | VN | 1,000 | 1,000 | 1,000 | 1,000 | 1,000 | 1,000 | 1,000 | 1,000 |
19 | Xinhmul | 1,000 | 1,500 | 2,400 | 0,444 | 1,067 | 1,255 | 0,982 | 0,982 |
Tổng | 371 |
Bảng 1. Mức độ “giống nhau” giữa nhóm VN và 18 nhóm khác ở 8 cái STR.
Trong bảng 1, mức độ “giống nhau” giữa nhóm VN với nhóm Aheu là 0.888 ở DYS19 và 0.685 ở DYS389I,... trị số lớn nhất là 1.000 có nghĩa “giống nhau y hệt” (lớn hơn 1.000 coi như bằng 1.000), trị số nhỏ nhất là 0.000 có nghĩa “chẳng giống nhau tí nào”.
Ta thấy nhóm VN giống 2 nhóm Xinhmul và Jeh ở 5 cái STR, nghĩa là:
- một đám O2a1* trong nhóm VN và đám O2a1* trong nhóm Xinhmul có MRCA trong vòng 266.5 đời, tức là 5,330 năm (1 đời = 20 năm), với “mức đột biến” là 0.002/đời và xác suất là 90% (hình 16),
- một đám O2a1* khác trong nhóm VN và đám O2a1* trong nhóm Jeh cũng có MRCA trong vòng 266.5 đời, tức là 5,330 năm (1 đời = 20 năm), với “mức đột biến” là 0.002/đời và xác suất là 90% (hình 16).
- Hình 16
Tới đây, ta đã zoom bức tranh từ 20,000 năm lại gần chừng 5,000 năm và thấy 2 đám O2a1* đang chập chờn đi lại ở một nơi mà ngày nay gọi là Lào, con cháu của 2 đám đó đã đi qua đồng bằng sông Hồng và về sau trở thành người VN, ai ở lại bên Lào thì về sau trở thành người Jeh và người Xinhmul.
Ta không thể zoom gần hơn nữa, vì thiếu dữ liệu: VN có 9 mẫu, Xinhmul chỉ có 3 mẫu, ngoài ra những nhóm thiểu số nói tiếng Austroasiatic bên VN thí dụ như Mường thì chẳng có dữ liệu gì ráo. Nhưng đây là hết thảy những gì ta dò ra được, vào lúc này.
Thí dụ bạn cũng thuộc về O2a1* và bạn không chịu nhận bà con với đám O2a1* trong những nhóm có cái tên lạ hoắc như “Jeh” hay “Xinhmul” bên Lào bây giờ, vì bạn lỡ nhận bà con với đám O2a1* trong những nhóm có cái tên quen quen là “Bách Việt” bên Phúc Kiến hồi xưa?
Tiếc là ta cũng không có dữ liệu của đám O2a1* trong nhóm Hán ở Phúc Kiến bây giờ mà hẳn là dòng dõi của đám O2a1* trong nhóm Bách Việt hồi xưa, nên cũng chẳng biết đám O2a1* đó nằm ở đâu trên những cây phylo bên trên. Song le, đám O2a1* ở Phúc Kiến ắt là có haplotype na ná đám O2a1* ở Taiwan (hai nơi này cách nhau một cái eo biển 10 ngàn năm trước còn đi bộ qua được), mà đám O2a1* Taiwan thì cách xa đám O2a1* VN lắm (các hình 8 - 15), nói nôm na là đại bác bắn 3 ngày không tới.
Những nhóm thiểu số Lào (phần lớn là O2a1*) cho đến gần đây còn giữ thứ gì thì hẳn là đám O2a1* người VN ngày xưa cũng có thứ đó, thí dụ như tục xăm mình, tục đâm trâu, mà đã bị bỏ từ thời nhà Lý, theo Đại Việt Sử Ký Toàn Thư. Nhưng có một thứ mà đám O2a1* người VN tới bây giờ vẫn chưa bỏ, đó là tiếng nói.
Bây giờ ta ghé thăm mấy nhà ngôn-ngữ-học chút xíu.
***
Ở phần 3 ta đã biết đám O2a1-M95 vốn nói những thứ tiếng Austroasiatic; gần 170 thứ tiếng Austroasiatic được xếp vào hơn chục nhóm khác nhau trong đó nhóm Vietic gồm tiếng Việt, tiếng Mường và những thứ tiếng khác ít người nói như Nguồn, Thổ, Chứt, Pong bên phía VN và Maleng, Arem, Mày, Rục, Sách, Toum, Aheu (Thaveung), Bo bên phía Lào.
Peiros xếp Vietic vào cái lõi Mon-Khmer (hình 17)...
- Hình 17
... mà gốc có lẽ ở bên Lào (hình 18).
- Hình 18
Gerard Diffloth [9] xếp Vietic vào nhánh Vieto-Katuic (hình 19)...
- Hình 19
...gốc có lẽ ở bên Lào ngang Đồng Hới (hình 20).
- Hình 20
Mark J. Alves [10] cũng cho rằng hai nhóm Vietic và Katuic gần nhau lắm.
In the end, while certain posited forms may turn out not to be proto-Vieto-Katuic cognates, and in fact, a proto-Vieto-Katuic phonological system has yet to be generated, the connection between Vietic and Katuic still seems a reasonable hypothesis for the time being.
- Hình 21
Song le, Paul Sidwell & Roger Blench [11] cho Vietic và mọi nhóm khác ngang hàng với nhau, không nhóm nào nằm trong nhóm nào (hình 21) nên gốc của Vietic có thể là bất cứ nơi nào có đám O2a1-M95 nói tiếng proto-Austroasiatic.
Vậy còn tiếng Việt có gốc ở đâu?
James A. Chamberlain [12] xếp tiếng Việt và tiếng Mường vào cùng nhánh (hình 22)...
- Hình 22
...và cho rằng cái gốc của proto-Vietic là Borikhamxay và Khammouane bên Lào ngang Quảng Bình, còn tiếng Việt thì có lẽ tách ra ở miền trung VN:
Based upon degree of diversity, linguistic evidence therefore places the homeland of Proto-Vietic in the interior regions of what is now Borikhamxay and Khammouane provinces, with some overflow to the opposite side of the Sai Phou Louang (Annamite) chain, to the north in Nghệ An and to the east in Quảng Bình, that is, far south of the Hồng plain. Slightly to the southeast, the greatest diversity of Vietnamese dialects occurs in central Vietnam, presumably the area that gave birth to the Vietnamese language.
Chamberlain cho rằng hồi xưa cả một vùng từ biên giới Việt-Trung qua đồng bằng sông Hồng xuống tới Quảng Bình bây giờ đều là nơi ở của người nói tiếng Tai-Kadai:
…linguistic, historical and cultural evidence indicates that the Sek is the southernmost extension of what was at one time a continuum of Northern Branch Tai or Be-Sek speaking peoples extending from the Sino-Vietnamese frontier through the Hong delta to the modern provinces of Thanh Hoa, Nghe An, Quang Binh and eventually to their present locations in Laos…
... cho tới giữa thế kỷ thứ 7 và thứ 9, người nói tiếng Việt [từ Quảng Bình] mới lan ra thế chỗ người nói tiếng Tai-Kadai ở đồng bằng sông Hồng:
…The precise dates when the ethnic Vietnamese actually replaced the Tai in the Delta are uncertain, but this must have occurred sometime between the seventh and the ninth centuries…
... người Mường nói tiếng Vietic cũng từ Nghệ An lan ra miền Bắc:
…Note also that “Mường”, a Tai word applied to the non-sinicized relatives of Vietnamese in Thanh Hoa and Hoa Binh, is used as an ethnonym for Tai speakers in Nghe An, indicating that the Vietic Mường must have dispersed northward from this area…
Ngược lại, Peter Bellwood [13] cho rằng người nói tiếng Austroasiatic đã ở Bắc VN và Nam TQ từ thời Neolithic (10200 BC - 2000 BC) trước khi người nói tiếng Tai-Kadai ở Nam TQ sang (hình 23).
Trần Trí Dõi [14] cũng cho rằng đồng bằng sông Hồng đã có nhóm nói tiếng Austroasiatic tới ở trước nhóm nói tiếng Tai-Kadai và hai nhóm đó “hòa hợp” với nhau chứ không nhóm nào “thế chỗ” nhóm nào:
Hình như, trong mười tên gọi sông Hồng hiện đang dùng hay được ghi lại trong sử sách, hai địa danh Hán-Việt Phú Lương và Lô/Lô Giang là dẫn xuất từ dạng thức địa danh có nguồn gốc Nam Á cổ xưa nhất. Thứ đến là địa danh Thao gốc Thái - Kađai và Cái cũng là gốc Nam Á. Những địa danh Hán-Việt còn lại lần lượt xuất hiện về sau và có lẽ Hồng/Hồng Hà là địa danh xuất hiện muộn nhất, gần thời đại chúng ta nhất... Ở hai địa danh đầu, phương thức cấu tạo của chúng là “chuyển danh từ chung thành tên riêng” nên tính chất của chúng cổ xưa hơn; còn ở hai địa danh sau, việc đặt tên địa danh là dựa trên “đặc điểm hay tính chất” của nó tự nó cho thấy giá trị thời gian muộn hơn.
“Từ góc nhìn văn hoá, người ta thấy rằng tên gọi sông Hồng là một sự hội tụ hay hoà hợp của hai cộng đồng cư dân sử dụng hai hệ ngôn ngữ Nam Á (Austroasiatic) và Thái - Kađai (Tai - Kadai). Trong đó, họ ngôn ngữ Nam Á là họ ngôn ngữ của cư dân bản địa ở vùng Đông Nam Á hiện nay và thuộc vào nhiều nhánh khác nhau; còn đối với cư dân họ Thái - Kađai, dường như vào thời cổ xưa, sông Hồng là ranh giới Tây Nam của cộng đồng cư dân này”…
Hoàng văn Ma [15] cho biết những chó má, súng ống, mưa móc, chim chóc,…đều là một cặp gồm tiếng Việt đứng trước và tiếng Tai-Kadai đứng sau, nhưng không cho biết từ hồi nào thì người ta nói ghép như vậy.
La Vaughn H. Hayes [16], người đặt ra chữ “Vietic”, cho rằng tiếng Việt tách ra từ nhánh Việt-Mường (hình 24).
- Hình 24
Trước hết, nhánh Việt-Mường-Chứt (East Vietic) tách ra từ proto-Vietic trong quãng 250 BC - 420, sau đó nhánh Việt-Mường tách ra trong quãng 320 - 820, cuối cùng tiếng Việt tách ra trong quãng 1090 - 1420 (hình 25), nhưng Hayes không cho biết những vụ “tách ra” đó xảy ra ở đâu.
- Hình 25
Ai cũng biết trong tiếng VN những từ ngữ xa lạ như “phúc”, “lộc”, “thọ”,... đều là gốc Hán, nhưng theo John Phan [17] ngay cả những từ ngữ gần gũi như “cái đầu”, “trái tim”, “cái quần”, “nhưng mà”, “bởi vì,”... cũng đều là gốc Hán. Cái gốc Hán đó không phải tiếng Hán văn chương hay tiếng Hán bình dân bên TQ mà là một thứ tiếng Hán của nhóm người TQ ở ngay đồng bằng sông Hồng, sông Mã và sông Cả, gọi là “Hán - An Nam”:
If neither innovation can be shown to have affected Late Sino–Vietnamese, then the donor of these words must have been distinct both from the literary standard of Middle Chinese and from the spoken dialects from which most modern Chinese languages evolved. Therefore, Late Sino–Vietnamese must have been borrowed from a regional dialect of Middle Chinese spoken in Annam. It remains possible that this regional dialect of Middle Chinese was part of a more broadly-spoken southern koine, as was once posited by Mantaro Hashimoto (Hashimoto, 1968), and the intriguing possibility remains that it may be a sort of “cousin” of the modern Xiang 湘 language of Hunan 湖 南 Province. At the moment, however, all that can be demonstrated with confidence is that it was spoken in the Red, Ma, and Ca River plains, and for this reason I call it “Annamese Middle Chinese”, after the Tang designation for the region (Annan 安 南 / Viet. An Nam).
Vì sao tiếng Việt (và cả tiếng Mường) có quá nhiều từ ngữ Hán - An Nam như vậy? Vay mượn?
Quá trình tiếp xúc lâu dài với tiếng Hán đã để lại trong tiếng Việt một tỉ lệ lớn các từ vay mượn của tiếng Hán, gọi là từ gốc Hán hay từ Hán-Việt...
Song le, theo Phan thì không phải vậy, mà là nhóm elite (quan lại) nói tiếng Hán - An Nam đã học nói tiếng proto-Viet-Muong của người bản địa rồi bê luôn từ ngữ và cách nói trong tiếng Hán - An Nam sang:
We are now beginning to accumulate a richer picture of the languages of Annam: not only were sectors of society literate in Chinese, some appear to have been entirely comprised of native Chinese speakers. These people spoke no imported northern dialect, however, but apparently a home-grown variety of Middle Chinese that had developed in ways peculiar to the area. Yet an important question remains unanswered: how exactly did Annamese Middle Chinese donate such a profundity of words into the ancestor of modern Vietnamese? Here I propose that Late Sino–Vietnamese resulted from a language shift, in which Annamese Middle Chinese speakers switched linguistic allegiance from their own language to Proto-Viet–Muong. This process effectively “dragged” large numbers of words (as well as some linguistic features) from their native language into the language they adopted, thereby transforming it.
Sau nhiều đời con cháu nói hai thứ tiếng, nhóm nói tiếng Hán - An Nam bắt đầu quên tiếng mẹ đẻ và ưa nói thứ tiếng mới là proto-Viet-Muong lai Hán - An Nam (viết tắt “VM-HA”) cho tới khi họ bỏ hẳn tiếng mẹ đẻ thì cả đồng bằng sông Hồng đều nói tiếng VM-HA.
...Essentially, Annamese Middle Chinese donated both words and structures to Proto-Viet–Muong throughout a prolongued period of intimate bilingualism. As generations of bilingual speakers gradually began to favour Proto-Viet–Muong, the variety of Proto-Viet–Muong spoken by these people became heavily influenced by their native Annamese Middle Chinese—a form of mixing similar to the English spoken by immigrant populations in the United States. However, unlike the analogy of, say, Cuban immigrants in modern America, the hybridized form of Proto-Viet–Muong spoken in Annam was perceived as a prestige dialect since it was undoubtedly spoken by the social and cultural elite. As this elite class of hybridized Viet–Muong/Annamese Middle Chinese speakers began slowly to abandon their native language, their hybridized Proto-Viet–Muong spread throughout the community until, as Winford describes, the entire TL population had adopted the unique characteristics of the prestige group. The final stage of language shift involved the total abandonment of Annamese Middle Chinese, leaving only (a highly sinicized) Proto-Viet–Muong spoken in the Red River plains...
Khi đã xong câu chuyện “đổi tiếng” (language shift) như trên, thì một vài thứ tiếng trong VM-HA tách ra khỏi VM-HA trở thành một thứ tiếng Việt gọn ghẽ, trong khi đó vài thứ tiếng khác trong VM-HA mãi về sau vẫn là những thứ tiếng Mường riêng rẽ chứ chưa trở thành một thứ tiếng Mường gọn ghẽ như tiếng Việt (hình 26).
As already noted, the basis of sub-grouping is shared innovations. In the case of Vietnamese, we have a complex set of changes, a part of which transformed Proto-Viet–Muong implosives into nasals. This set of changes divided Vietnamese from Proto-Viet–Muong, and provides the basis for a Vietnamese subgroup. These facts suggest that it was Vietnamese that split off from Proto-Viet–Muong, while an already diverse array of Proto-Viet–Muong varieties eventually evolved into the modern Muong dialects.
In this model, Vietnamese is properly understood as a subgroup while Muong is not. Because the Muong dialects are mutually intelligible, they might be understood as a single language, although this is misleading in terms of their evolutionary history. All Muong dialects, as well as Vietnamese, descend from an array of Proto-Viet–Muong dialects that had already been sinicized. Then, a single lowland dialect or possibly a subset of them split off together, forming their own sub-group and eventually evolving into modern Vietnamese. The remainder continued to evolve, but never mutually innovated into a new group (until possibly very much later).
...In light of these observations, we can only conclude that Muong is not a subgroup, but that it represents the ongoing evolution of an already-diversified group of Proto-Viet–Muong dialects, from which Vietnamese split sometime after the language shift event described in the last section.
- Hình 26
Đúng là tiếng TQ (quan thoại) đặt câu rất giống tiếng Việt:
Việt | Chừng nào | anh | có | rảnh | mời | anh | lại | nhà em | chơi |
Quan thoại | Shen-mo shi-hou | ni | yu | k’ung | ch’ing | ni | lai | wo-te chia | wan |
Việt | Tụi nó | một | đứa | bạn | cũng | không | có |
Quan thoại | T’a-mên | i | kê | p’êng-yu | yeh | mei | yu |
Việt | Chẳng có | ai | có thể | bảo | tôi | gió | từ | nơi nào | tới |
Quan thoại | Mei yu | jen | neng | kao-su | wo | feng | ts’ung | na li | lai |
Việt | Người | người | đều | biết |
Quan thoại | Jen | jen | tou | chih-tao |
(ở trên phiên âm quan thoại theo kiểu những năm 1970 ở Taiwan)
Tóm lại, nếu lấy năm 1200 là lúc tiếng Việt “đẻ ra”, theo Hayes (hình 25) và thời gian “mang bầu” nó, theo Phan (hình 26) lâu chừng 300 năm, ta có bảng sau:
~600 | tiếng proto-Viet-Muong |
300~;600 | tiếng Hán - An Nam của nhóm elite |
600~900 | nhóm elite nói 2 thứ tiếng Hán - An Nam và proto-Viet-Muong |
900~1200 | tất cả nói tiếng VM-HA |
1200~ | tiếng Việt tách ra từ VM-HA |
Bảng 2. Lịch sử tiếng nói ở đồng bằng sông Hồng
Tiếng Mường có lẽ tách ra sau năm 1200, và từ ngữ Tai-Kadai có lẽ cũng đưa vào tiếng Việt trong thời gian đó; nhưng ở đây ta chưa có đủ dữ liệu để bàn thêm.
***
Gộp những gì đã biết theo nhân-chủng-học và ngôn-ngữ-học bên trên, dường như một đám O2a1* nói tiếng proto-Vietic từ vùng đồi phía tây đã đi sang đồng bằng sông Hồng trong một vài trăm năm trước công nguyên, và là MRCA của những đực rựa O2a1* người VN ngày nay. Lúc đó, ở đồng bằng sông Hồng ắt cũng đã có một đám khác (mà ta sẽ nói vào một dịp khác).
10-May-2014
NOTES
[1] 13 Y-chromosomal STRs in a Vietnamese population
[2] Characteristics and Frequency of Germline Mutations at Microsatellite Loci from the Human Y Chromosome, as Revealed by Direct Observation in Father/Son Pairs
[3] Patrilineal Perspective on the Austronesian Diffusion in Mainland Southeast Asia
[4] Population Genetic Structure in Indian Austroasiatic Speakers:The Role of Landscape Barriers and Sex-Specific Admixture
[5] Human Migration through Bottlenecks from Southeast Asia into East Asia during Last Glacial Maximum Revealed by Y Chromosomes
[6] Genetic origin of Kadai-speaking Gelong people on Hainan island viewed from Y-chromosome
[7] Software for constructing population trees from allele frequency data and computing other population statistics with Windows-interface. Naoko Takezaki, Masatoshi Nei, and Koichiro Tamura.
[8] Chao, A. and Shen, T.-J. (2010) Program SPADE (Species Prediction And Diversity Estimation). Program and User’s Guide published at http://chao.stat.nthu.edu.tw.
[9] Proto-East Asian and the Origin and Dispersal of the Languages of East and Southeast Asia and the Pacific
[10] The Vieto-Katuic Hypothesis: Lexical Evidence
[11] The Austroasiatic Urheimat: the Southeastern Riverine Hypothesis
[12] The origin of the Sek implications for Tai and Vietnamese history
[13] Examining the farming/language dispersal hypothesis in the East Asian context
[14] Tên gọi của sông Hồng: dấu tích biểu hiện nét đa dạng văn hoá trong lịch sử người Việt
[15] Vấn đề vốn từ chung giữa tiếng Việt và các tiếng Tày Thái
[16] Vietic and Viet-Muong: a new subgroup in Mon-Khmer
[17] Re-Imagining “Annam”: A New Analysis of Sino–Viet–Muong Linguistic Contact
Xem online : Nguồn gốc người Việt (1): NHẬP ĐỀ