AI (ChatGPT) và Số mục từ trong các từ điển

ai dem so muc tu dien

Phần 1: ChatGPT về Số mục từ trong các từ điển

1.1 Thử tìm hiểu về độ lớn của kho ngữ vựng tiếng Anh Mỹ hiện nay

Dùng tiện ích ChatGPT để ước lượng qua số mục từ (hạng mục từ ngữ) xuất hiện trong các cuốn từ điển đã xuất bản và đang được sử dụng.

ChatGPT: “It’s difficult to give a precise number for the current American vocabulary, as there are many different factors that can influence how you define and measure vocabulary size. However, I can provide some general information on the number of entries in some commonly used dictionaries.

The Oxford English Dictionary (OED) is one of the most comprehensive dictionaries of the English language, and it currently contains over 600,000 words and phrases, with around 1,000 new entries added every quarter. However, it’s worth noting that many of these entries are obsolete or rare words that are not commonly used in modern English.

Merriam-Webster’s Collegiate Dictionary, which is one of the most popular dictionaries in the United States, contains around 225,000 entries. However, this figure includes many compounds and derivatives, so the actual number of distinct words is somewhat lower.

Other popular dictionaries, such as the American Heritage Dictionary and the Random House Dictionary, have similar numbers of entries, ranging from around 200,000 to 250,000.

It’s important to note that these figures only represent the number of entries in a given dictionary, and do not necessarily reflect the full range of words used by English speakers in America. Many words are used in informal or specialized contexts that may not be included in standard dictionaries, and new words and usages are constantly being added to the language.”

1.2 Trường hợp tiếng Pháp:

ChatGPT: “Similarly to English dictionaries, there are many different French dictionaries available, and the number of entries they contain can vary widely. However, here are some general figures for popular French dictionaries:

  • The Larousse dictionary is one of the most comprehensive French dictionaries, and its most recent edition contains around 135,000 entries. This includes words from a wide range of sources, including technical and specialized vocabulary.
  • The Le Robert dictionary is another popular French dictionary, and it contains around 100,000 entries. Like the Larousse, it includes technical and specialized vocabulary, as well as regional variations and slang.
  • The Petit Robert dictionary is a smaller version of the Le Robert, and contains around 60,000 entries. It is designed for more general use and does not include as much specialized vocabulary as the larger Le Robert.

It’s important to note that these figures are just rough estimates, and the actual number of entries in a given dictionary can depend on a variety of factors, including how words are defined and whether they include different forms of a word (such as conjugations or plural forms). Additionally, there are many different dialects and regional variations of French, and different dictionaries may include different words or spellings depending on the intended audience.”

1.3 Trường hợp tiếng Nhật:

ChatGPT: “As with Chinese, French, and English dictionaries, there are many different Japanese dictionaries available, and the number of entries they contain can vary widely. Here are some general figures for popular Japanese dictionaries:

  • The Daijisen (大辞泉) is one of the most comprehensive Japanese dictionaries, and its most recent edition contains over 240,000 entries. It includes words from a wide range of sources, including classical Japanese, technical and specialized vocabulary, and slang.
  • The Daijirin (大辞林) is another popular Japanese dictionary, and it contains around 230,000 entries. Like the Daijisen, it includes technical and specialized vocabulary as well as more general language.
  • The Nihongo Daijiten (日本語大辞典), or Great Japanese Dictionary, is a larger and more comprehensive dictionary than either the Daijisen or the Daijirin. Its most recent edition contains over 500,000 entries, including a wide range of technical and specialized vocabulary.
  • The Kojien (広辞苑) is a popular Japanese dictionary that focuses on the classical Japanese language, and it contains around 240,000 entries. It includes many words and phrases from classical literature, as well as more modern usages.

It’s worth noting that Japanese has several writing systems, including kanji (Chinese characters), hiragana, and katakana, and different dictionaries may include different forms of words depending on the intended audience. Additionally, like Chinese, Japanese words can have multiple meanings and pronunciations depending on the context.”

ChatGPT

1.4 Trường hợp tiếng Việt:

ChatGPT: “Similar to other languages, there are many different Vietnamese dictionaries available, and the number of entries they contain can vary widely. Here are some general figures for popular Vietnamese dictionaries:

  • The Từ điển Việt Nam (Vietnamese Dictionary), published by the Vietnam Academy of Social Sciences, is one of the most comprehensive Vietnamese dictionaries. Its most recent edition contains over 70,000 entries, including technical and specialized vocabulary, as well as regional variations and slang.

It’s important to note that Vietnamese is a tonal language, which means that different tones can change the meaning of a word, even if the pronunciation is otherwise the same. This can make dictionary look-up more complex. Additionally, there are many regional variations and dialects of Vietnamese, which can have different words or pronunciations depending on the region.”

Chat GPT

1.4.1 Tiếng Việt đối ứng với các thứ tiếng khác:

ChatGPT: “Sure, here are some approximate numbers of entries for popular dictionaries in the respective language pairs:

  • Vietnamese-English dictionaries: The Vietnamese-English Dictionary by Nguyen-Khac-Huyen contains around 35,000 entries. Other popular Vietnamese-English dictionaries include the Vietnamese-English Dictionary by Nguyen-Huu-Xuan (about 30,000 entries), the Vietnamese-English Dictionary by Nguyen-Van-Giau (about 25,000 entries), and the Tuttle Vietnamese-English Dictionary (about 25,000 entries).
  • Vietnamese-French dictionaries: The Từ điển Việt-Pháp (Vietnamese-French Dictionary) by Trần Văn Giàu contains around 70,000 entries. Other popular Vietnamese-French dictionaries include the Tự-điển Việt-Pháp by Lê Văn Tốt (about 45,000 entries), the Dictionnaire Vietnamien-Français by Nguyễn Văn Vien (about 35,000 entries), and the Dictionnaire français-vietnamien by Trần Văn Giàu (about 30,000 entries).
  • Vietnamese-Japanese dictionaries: The Vietnamese-Japanese Dictionary (Từ điển Việt-Nhật) by Nguyễn Tấn Phát contains around 35,000 entries. Other popular Vietnamese-Japanese dictionaries include the Từ điển Việt-Nhật by Bùi Văn Hạnh (about 35,000 entries), the Từ điển Việt-Nhật by Đinh Thiện Tuấn (about 25,000 entries), and the Từ điển Việt-Nhật by Nguyễn Thành Dũng (about 30,000 entries).”

1.4.2 Các thứ tiếng khác đối ứng với tiếng Việt:

ChatGPT: “Sure! Here are some approximate numbers of entries for popular dictionaries in the respective language pairs:

  • English-Vietnamese dictionaries: The Oxford Picture Dictionary English-Vietnamese Edition contains over 4,000 entries. Other popular English-Vietnamese dictionaries include the Tuttle English-Vietnamese Dictionary (about 25,000 entries), the Bilingual Vietnamese-English Dictionary by Nguyen-Dinh Hoa (about 20,000 entries), and the Vietnamese-English Dictionary by Nguyen-Khac-Huyen (about 35,000 entries).
  • French-Vietnamese dictionaries: The Từ điển Pháp-Việt (French-Vietnamese Dictionary) contains around 70,000 entries. Other popular French-Vietnamese dictionaries include the Dictionnaire français-vietnamien by Trần Văn Giàu (about 30,000 entries), the Tự-điển Pháp-Việt by Nguyen Van Thoai (about 45,000 entries), and the Dictionnaire vietnamien-français by Nguyen-Van-Vien (about 35,000 entries).
  • Japanese-Vietnamese dictionaries: The Japanese-Vietnamese Dictionary (Từ điển Nhật Việt) by Nguyen Tien Nghia contains around 50,000 entries. Other popular Japanese-Vietnamese dictionaries include the Từ điển Nhật-Việt by Phạm Quang Đạo (about 50,000 entries), the Từ điển Nhật-Việt by Đào Trung Kiên (about 40,000 entries), and the Từ điển Nhật-Việt by Nguyễn Thành Dũng (about 35,000 entries).”

Phần 2: Tóm tắt thông tin về số mục từ

Tóm tắt các thông tin đã được ChatGPT cho biết trên đây:

– Số mục từ trong Từ điển Việt Nam (Vietnamese Dictionary), do Vietnam Academy of Social Sciences xuất bản, là từ điển lớn nhất trong các từ điển giải thích tiếng Việt, phiên bản mới đây có khoảng 70 ngàn mục từ, kể cả các thuật ngữ khoa học kỹ thuật, phương ngữ (từ ngữ đặc biệt của từng địa phương), và tiếng lóng.

– Số mục từ trong các từ điển tiếng Việt dịch sang các ngôn ngữ khác, thường vào khoảng từ 20 đến 45 ngàn, nhiều nhất là Từ điển Việt-Pháp (Vietnamese-French Dictionary) – Trần Văn Giàu có khoảng 70 ngàn mục từ.

– Số mục từ trong các từ điển các ngôn ngữ khác dịch sang tiếng Việt, thường vào khoảng từ 4 đến 50 ngàn, nhiều nhất là Từ điển Pháp-Việt (French-Vietnamese Dictionary), và Từ điển Anh Việt (English-Vietnamese Dictionary) có khoảng 70 ngàn mục từ.

– Số mục từ trong các từ điển lớn, tiếng Anh Mỹ, thường vào khoảng từ 200 đến 250 ngàn, nhiều nhất là Oxford English Dictionary có khoảng 600 ngàn mục từ và thành ngữ, mỗi ba tháng lại có thêm khoảng 1,000 từ ngữ mới.

– Số mục từ trong các từ điển lớn, tiếng Pháp, thường vào khoảng từ 60 đến 135 ngàn mục từ.

– Số mục từ trong các từ điển lớn, tiếng Nhật, thường vào khoảng từ 230 đến 240 ngàn, nhiều nhất là Nihongo Daijiten (日本語大辞典 – Nhật Bản ngữ Đại Từ điển) có khoảng 500 ngàn mục từ.

Phần 3: Một vấn đề ngôn ngữ trong thời đại AI

Xin nêu lên vài nhận xét và hệ luận:

Các thông tin này từ ChatGPT tạo được ấn tượng khả tín và đầy đủ chi tiết. Không thấy có lý do gì để phải nghi ngờ rằng ChatGPT thiên vị đối với ngôn ngữ nào, vì mục đích hay động cơ gì. Bản thân người viết cũng dùng vài cuốn từ điển có số mục từ đúng như ChatGPT cho biết, chẳng hạn cuốn Từ điển Việt Anh của Viện Ngôn Ngữ Học xuất bản năm 1987 có 45 ngàn từ, cuốn Daijirin (大辞林 – Đại Từ Lâm) của Sanseido xuất bản năm 1995 có trên 230 ngàn từ.

Nhìn vào các thông tin ấy thì thấy kho ngữ vựng tiếng Việt chỉ kể ra được chừng 70 ngàn mục từ, khoảng 30% so với tiếng Anh Mỹ có kho ngữ vựng thường đếm ra được từ 200 đến 250 ngàn mục từ, nhiều nhất đến 600 ngàn, và mỗi ba tháng lại có thêm khoảng 1 ngàn từ ngữ mới.

Như đã đề cập trong bài viết trước đây (Một thí nghiệm dùng ChatGPT), ngôn ngữ là nền tảng của văn minh. Và văn minh hiện đại bắt đầu có phần cống hiến chủ yếu là từ AI (trí tuệ nhân tạo). Bối cảnh như thế làm nổi rõ thêm vấn đề “thiệt thòi của người chỉ biết tiếng Việt” trong thời đại này, khi tiếng Anh là nền tảng để thực hiện kho dữ liệu, thuật toán,… của AI, và lâu nay vẫn là ngôn ngữ chính trong hầu hết mọi hoạt động giao dịch đa quốc gia trên thế giới.

Quan trọng nhất trong AI là kho dữ liệu; các yếu tố khác như tốc độ xử lý và thuật toán đều nhắm vào mục đích sử dụng lượng dữ liệu khổng lồ ấy. Và máy học tập (machine learning) càng tăng tiến, càng đạt hiệu quả tốt hơn, tùy thuộc vào kích thước của lượng dữ liệu được dùng để huấn luyện máy. Kho dữ liệu đối với AI được ví như đất ruộng đối với nhà nông. Đất ruộng càng rộng lớn và mầu mỡ thì thu hoạch càng nhiều và phẩm chất cao. Năm 2021, công ty Google có khoảng 15 trung tâm dữ liệu từ California cho đến Finland và Singapore, mỗi trung tâm cần cỡ vài trăm triệu Mỹ kim để xây dựng kho dữ liệu. Các đại công ty AI khác như Microsoft, Meta (Facebook), Amazon, Baidu,… cũng có những trung tâm dữ liệu khổng lồ tương tự.

Kho ngữ vựng của các ngôn ngữ là nền tảng từ đó nảy sinh các sách, báo, luận văn, văn kiện,… rồi từ đó lại nảy sinh thêm loạt mới những sách, báo, luận văn, văn kiện,… để tán đồng hay phản luận, triển khai và ứng dụng,… cứ thế liên tiếp mạch sinh. Do đó, độ chênh lệch từ đầu về kho ngữ vựng sẽ tăng theo cấp số nhân, trở thành chênh lệch gấp nhiều lần về số lượng dữ liệu AI được sử dụng cho các ngôn ngữ chuyên biệt. Chênh lệch ban đầu giữa kho ngữ vựng tiếng Việt so với tiếng Anh, trở thành chênh lệch rất lớn giữa hai kho dữ liệu dùng trong AI, và từ đó giữa năng lực hay hiệu quả của các ứng dụng AI sẽ khác hẳn nhau giữa hai ngôn ngữ.

Và khó có thể kỳ vọng vào tiến bộ về các bộ máy dịch thuật Anh Việt và Việt Anh sẽ bù đắp được cho thiệt thòi này, bởi tiếng Việt còn đi sau rất xa so với các ngôn ngữ như Pháp, Nhật,… về mức độ đầu tư, năng lực lẫn quan tâm của quần chúng. Tình trạng thực tế là máy dịch Việt Anh – Anh Việt không đạt được tới trình độ của máy dịch Pháp Anh – Anh Pháp, hay của máy dịch Nhật Anh – Anh Nhật, chẳng hạn.

Lại nữa, nhiều ứng dụng AI chỉ có thể dùng được cho những ngôn ngữ nhiều người dùng hơn tiếng Việt, như English, French, Japanese, German, Spanish, Russian, Dutch, Italian, Portuguese, Polish, và Arabic, mà thôi.

AI đã nhanh chóng được dùng càng ngày càng nhiều thêm trong hầu hết sinh hoạt của con người hiện đại. Trong lãnh vực y tế, AI giúp chẩn đoán từ xa nhiều chứng bệnh kể cả ung thư. Thử so sánh trường hợp người bệnh dùng tiếng Việt so với người bệnh dùng tiếng Anh khi chẩn đoán bằng AI, hẳn hiểu được sự thiệt thòi của người chỉ biết tiếng Việt, có thể đến mức sinh tử, vì khả-năng-tính chẩn đoán sai lầm do mức độ tiến bộ khác nhau giữa các ngôn ngữ. Với AI trong lãnh vực tài chánh hay kinh doanh, sự thiệt thòi này của người chỉ biết tiếng Việt có thể đưa đến thiệt hại lớn về tiền bạc, tài sản.

Con người suy nghĩ bằng ngôn ngữ, một khi đã vượt qua thời kỳ thơ ấu chưa biết nói. Nhiều nghiên cứu khoa học và xã hội cho biết khả năng song ngữ ở tuổi học sinh không chỉ hữu dụng trong lãnh vực ngôn ngữ, mà còn có thể giúp tăng tiến trình độ lãnh hội, nhận thức, suy luận, cả trí nhớ nữa; và người song ngữ có lợi thế hơn hẳn trong chuyện dễ tìm được nhiều việc làm, hay được mức lương cao hơn. 

Tổ chức “ilanguages.org” cho biết khoảng 43% toàn nhân khẩu thế giới là người song ngữ (3,3 tỷ), thêm với 17% là người dùng được hơn 2 ngôn ngữ. Nghĩa là khoảng 60% người trên thế giới hiện nay dùng được 2 hay nhiều ngôn ngữ trong đời sống; và người chỉ dùng một ngôn ngữ đã là thiểu số 40%. Chênh lệch này còn tiếp tục tăng theo mức độ toàn cầu hóa.

Tiếng Anh hiện là ngôn ngữ được sử dụng rộng rãi nhất trên thế giới, khoảng 1,5 tỷ người dùng. Và cũng là ngôn ngữ của học thuật, kinh doanh quốc tế, và ngoại giao. Nhiều quốc gia sử dụng tiếng Anh như ngôn ngữ thứ hai hoặc thậm chí là ngôn ngữ thứ nhất, khiến Anh ngữ đã thực chất trở thành ngôn ngữ toàn cầu.

Trong bối cảnh như thế, thiệt thòi của người chỉ biết tiếng Việt nổi cộm lên, đòi hỏi sự quan tâm đúng mức và thảo luận nghiêm túc, hướng đến một đối sách hữu hiệu và khả thi. Và yêu cầu ấy càng ngày càng cấp bách thêm, theo với mức độ phổ cập càng ngày càng rộng lớn nhanh chóng của AI.

Cần cấp thiết đào tạo con người song ngữ Việt Anh. Đặc biệt cần có giáo dục song ngữ triệt để ngay từ khóa trình Tiểu học, chú trọng dùng sách giáo khoa tiếng Anh, và thầy cô có bằng cấp thực sự từ các nước dùng Anh ngữ chính thức. Có thể tham khảo những mô hình đào tạo thành công như ở Singapore hay ở các nước Âu châu: Đức, Finland,… Con người song ngữ Việt Anh dùng tiếng Việt trong nhà và trong các sinh hoạt tình cảm hay nghệ thuật, đồng thời dùng tiếng Anh trong học tập, công việc hay giao tế.

Ở trong nước thì hiện tại, chỉ có con cháu nhà giàu mới có cơ hội được đào tạo song ngữ ở các trường tư, do đó số người song ngữ không được bao nhiêu. Tình trạng này cần gấp rút cải thiện bằng chế độ giáo dục song ngữ.

Theo kịp được trình độ văn minh của thế giới hay không tùy thuộc vào thành công (hay không) của chế độ giáo dục, đặc biệt về ngôn ngữ.

From Exryu CT

5/5 - (3 votes)
Rakuten Marketing Welcome Program

Leave a Reply

Your email address will not be published. Required fields are marked *