Mạng từ trước hết là một tài nguyên từ vựng dành cho máy tính. Hàng loạt công việc liên quan đến ứng dụng máy tính vào xử lí ngôn ngữ tự nhiên và liên quan đến lĩnh vực trí tuệ nhân tạo như dịch máy, nhận dạng tiếng nói, hỏi và trả lời tự động,… đều cần đến Mạng từ, hoặc chí ít, nếu sử dụng Mạng từ thì kết quả công việc sẽ được cải thiện một cách đáng kể.

Đang xem: Wordnet là gì trong tiếng việt? xây dựng wordnet cho tiếng việt

Mạng từ là gì?Mạng từ (WordNet) – sản phẩm liên ngành chủ yếu của ngôn ngữ học, tâm lí học và khoa học máy tính là một cơ sở ngữ liệu lớn, được thiết kế cho một hay nhiều ngôn ngữ, trong đó các từ được nhóm lại thành các loạt đồng nghĩa/loạt đồng nghĩa tri nhận, mỗi loạt đồng nghĩa này thể hiện một khái niệm nghĩa riêng biệt; các loạt đồng nghĩa khác nhau có gắn kết với nhau nhờ vào các quan hệ ngữ nghĩa.Ví dụ nhưtừmặt.Một nghĩa thường gặp của từ này là “phần phía trước của đầu người, kéo dàitừtrán đến cằm, nơi có các bộ phận như mắt, mũi, mồm” thôi, ta cũng có thể kể ra hàng loạttừ mà nghĩa này có quan hệ trực tiếp. Chẳng hạn, nghĩa này sẽ có quan hệ ngữ nghĩa trực tiếp với những loạt đồng nghĩa có cáctừđại diện làđầu,mắt, mũi, miệng,trán, cằm, má, mặt trái xoan, mặt vuông chữ điền,….Mỗi từcó quan hệ nghĩa trực tiếp với nghĩa đang nói củatừmặt,đến lượt mình, lại có quan hệ ngữ nghĩa trực tiếp với rất nhiềutừkhác nữa:từđầucó quan hệ ngữ nghĩa trực tiếp với cáctừtóc, gáy, tóc mai, thái dương, đỉnh đầu, cổ, mình, tay, chân, cơ thể,…; từmắtcó quan hệ ngữ nghĩa trực tiếp với cáctừlông mày, lông mi, lòng đen, lòng trắng, nhìn, ngó, xem,… Cứ như vậy,từ/ nghĩatừnào cũng có một tập hợp quan hệ ngữ nghĩa của riêng mình, chúng cứ có quan hệ dắt díu nhau mãi, tạo thành mộtmạnglưới quan hệ phức tạp theo các chiều hướng và tôn ti xác định.

*

Mạng từ của tiếng Hà Lan, trong đó, mỗi nút là một loạt từ đồng nghĩa, các nút này được nối với nhau nhờ quan hệ ngữ nghĩa.Trạng thái hiện nay của các Mạng từ nói chung mới chỉ ghi nhận bốn lớp từ loại chính là danh từ, động từ, tính từ và trạng từ. Có thể nói rằng, cho đến thời điểm này, Mạng từ là một trong những nguồn tài nguyên từ vựng trực tuyến dành cho máy tính lớn nhất và quan trọng nhất.Lịch sử của Mạng từNăm 1978, George Miller, giáo sư ngôn ngữ học tâm lí tại Đại học Princeton, bắt đầu phát triển một cơ sở dữ liệu về từ và mối quan hệ ngữ nghĩa giữa chúng ở trong tiếng Anh. Cơ sở dữ liệu từ vựng này có thể được xem như là một loại mô hình từ vựng tinh thần và được gọi là Mạng từ. Mạng từ tiếng Anh chính là Mạng từ đầu tiên trên thế giới. Hiện nay phiên bản 3.1 là phiên bản mới nhất của Mạng từ tiếng Anh, ra mắt người sử dụng vào năm 2012 gồm 155.287 từ, với 117.659 loạt đồng nghĩa gồm 206.941 cặp nghĩa từ, tồn tại dưới dạng nén với kích thước 12MB. Với phiên bản 3.1, trong Anh ngữ không thể có một nguồn ngữ liệu từ vựng nào trực tuyến tốt hơn, đầy đủ hơn (về cách giải thích nghĩa theo lối tôn ti, cách định vị, định trị quan hệ ngữ nghĩa, về việc cung cấp thông tin bách khoa,…), và lớn hơn (xét về số lượng đơn vị từ vựng và số lượng nghĩa được ghi nhận)…Sau khi ra đời, bên cạnh việc sử dụng vào các mục đích tra cứu thông thường, Mạng từ tiếng Anh được sử dụng rộng rãi trong nhiều ứng dụng liên quan đến xử lí ngôn ngữ tự nhiên trên toàn thế giới và nó đã thúc đẩy, phát triển nhiều nghiên cứu mới.Với thành công và tầm quan trọng của Mạng từ tiếng Anh này, người ta nhận thấy cần phải phát triển các nguồn tài nguyên từ vựng tương tự như vậy cho các ngôn ngữ khác. Thêm vào đó, nếu như các Mạng từ của các ngôn ngữ khác được xây dựng, người ta sẽ tạo ra được một mạng lưới tài nguyên từ vựng có sự liên kết thống nhất với nhau, giúp cho việc nghiên cứu và ứng dụng được phát triển tốt hơn. Vì thế, các nhà ngôn ngữ học, tin học và tâm lí học Châu Âu đã bắt tay vào việc xây dựng dự án Mạng từ Châu Âu (EuroWordNet).Năm 1996, dưới sự tài trợ của EU, Mạng từ Châu Âu chính thức được bắt đầu, với mục tiêu là phát triển một Mạng từ Châu Âu chung cho các tiếng Hà Lan, Tây Ban Nha và Ý, và liên kết Mạng từ chung này với Mạng từ tiếng Anh để có thể tạo thành một cơ sở dữ liệu từ vựng đa ngôn ngữ. Mạng từ Châu Âu (vốn được xây dựng dựa trên phiên bản 1.5 của Mạng từ tiếng Anh) không chỉ có lõi tương thích với Mạng từ tiếng Anh, mà còn được mở rộng bổ sung thêm nhiều về mặt đối tượng từ vựng và các quan hệ ngữ nghĩa. Năm 1997, dự án đã được mở rộng để phát triển cho các tiếng Đức, Pháp, Czech, và Estonia. Phiên bản Mạng từ Châu Âu đầu tiên đã ra đời vào cuối năm 1999.Sau Mạng từ Châu Âu, một mạng từ đa ngữ đầu tiên trên thế giới, Mạng từ Châu Á (Asian WordNet) cũng đã được phát triển. Mạng từ Châu Á được thiết kế chủ yếu dựa trên Mạng từ tiếng Anh đơn ngữ và các nguồn từ điển song ngữ bản ngữ với tiếng Anh. Hiện có trên 10 ngôn ngữ trong Mạng từ Châu Á. Các ngôn ngữ được phát triển trong Mạng từ Châu Á có tỉ lệ như sau: Bengal (0.90%) Indonesia (8.17%), Nhật (30.35%), Hàn Quốc (35.93%), Lào (33.05%), Mông Cổ (1.38%), Myanmar (16.95%), Nepal (0.03%), Sinhala (0.23%), Sundanese (0.06%), Thái (40.27%), và Việt (10.40%) (số liệu của Virach Sornlertlamvanich, 2010).

*
*
*

Các bước xây dựng Mạng từ Tiếng Việt.Các quan hệ ngữ nghĩa chính trong Mạng từ tiếng ViệtMạng từ giống như là một đồ thị rời rạc khổng lồ, trong đó mỗi nút là một loạt từ đồng nghĩa và mỗi cạnh là một quan hệ ngữ nghĩa nối các nút lại với nhau. Số lượng nghĩa của ngôn ngữ tự nhiên là vô hạn, số lượng quan hệ nghĩa của ngôn ngữ tự nhiên lại là n cái vô hạn. Trên thực tế, các Mạng từ thường chỉ xử lí khoảng 10 loại quan hệ ngữ nghĩa. Xét ở một phương diện nào đó, mạng từ cũng chỉ là một loại mô hình hóa giản đơn cái cấu trúc vô cùng phức tạp của từ vựng tinh thần (mental lexicon) của ngôn ngữ tự nhiên.Quan hệ đồng nghĩa: Tồn tại trong cả ba lớp từ loại danh từ, động từ và tính từ, là quan hệ giữa những từ có nghĩa giống nhau hoặc gần giống nhau mà có thể thay thế cho nhau được trong một số ngữ cảnh sử dụng. Ví dụ: người – mình – cơ thể, dạ dày – bao tử, ăn – xơi – dùng,…Quan hệ bao thuộc: Có mặt trong hệ thống danh từ của Mạng từ. Ví dụ: thực vật – hoa, hoa – hoa hồng, hoa hồng – hoa hồng bạch; công cụ – công cụ học tập, công cụ học tập – bút, bút – bút lông; động vật – gia súc, gia súc – chó, chó – chó Phú Quốc.

Xem thêm: Định Hướng Là Gì – — Red Cat Academy

Trong dãy những ví dụ dẫn ở đây, ở từng cặp từ một, những từ bên trái được xem là những từ bao (hypernym), còn những từ bên phải được xem là những từ thuộc (hyponyms).Quan hệ tổng phân. Cũng là quan hệ chỉ có mặt ở hệ thống danh từ, và cùng với quan hệ bao thuộc, nó là quan hệ xương sống của hệ thống danh từ của Mạng từ. Quan hệ tổng phân là quan hệ giữa một từ tổng (holonym) và một từ phân (meronym); từ phân được xem như là một trong những bộ phận, thành viên,… của từ tổng. Ví dụ: cơ thể – đầu, đầu – mắt, mắt –lòng đen, lòng đen – con ngươi; cây – cành, cành – lá, lá – cuống (lá);Quan hệ cách: Là quan hệ chủ yếu của lớp từ loại động từ, trong đó nghĩa của từ này (được gọi là từ bao) thể hiện cách thức hoạt động của từ kia (được gọi là từ cách/ troponym). Từ A có quan hệ cách với từ B tức là từ B là từ A theo một cách nào đó. Ví dụ như trong cặp quan hệ cách biến đổi – biến đổi trạng thái thì biến đổi trạng thái là một cách biến đổi, trong cặp quan hệ biến đổi trạng thái – chết thì chết là một cách biến đổi trạng thái, trong cặp quan hệ chết – tự tử thì tự tử là một cách chết.Quan hệ trái nghĩa: Là quan hệ tồn tại chủ yếu ở lớp tính từ, giữa những từ ngược nhau hay đối lập loại trừ nhau về nghĩa. Ví dụ: đẹp – xấu, yêu – ghét, to – nhỏ, dài – ngắn, thơm – thối, sạch – bẩn,.… Trong Mạng từ, các tính từ được nối với nhau chủ yếu nhờ quan hệ trái nghĩa.Quan hệ thuộc tính: Là quan hệ tồn tại giữa lớp từ loại danh từ chỉ thực thể (thường là thực thể trừu tượng, có tính liên quan tâm lí cao) và tính từ chỉ thuộc tính. Về bản chất, quan hệ thuộc tính có thể tồn tại giữa động từ và tính từ; nhưng kiểu quan hệ này nói chung khá phức tạp, nên thường không được ghi nhận. Đối với quan hệ thuộc tính giữa danh từ và tính từ, Mạng từ trước nhất thường chỉ ghi nhận và xử lí những cặp từ có quan hệ thuộc tính lưỡng trị trừu tượng kiểu như kích thước – to/ nhỏ, vận tốc – nhanh/ chậm, số lượng – nhiều/ ít, sức mạnh – yếu/ khoẻ,… Trong những ví dụ này, các từ đứng ở phía tay phải là những từ chỉ thức thể trừu tượng mang giá trị thuộc tính; những từ đứng ở phía tay trái là những từ chỉ giá trị thuộc tính.Quan hệ nhân quả: Là quan hệ tồn tại trong lớp từ loại động từ. Ví dụ như triệu tập – họp, giết – chết, đập – vỡ, tìm – thấy,… Trong các cặp từ này, từ đứng phía tay trái thể hiện nguyên nhân, từ đứng phía tay phải thể hiện kết quả.

Xem thêm: Nghĩa Của Từ ' Thought Provoking Là Gì, Nghĩa Của Từ &#39Thought

Quan hệ suy ra: Là quan hệ tồn tại trong lớp từ loại động từ, trong đó hành động được biểu thị ở từ này chỉ có thể tồn tại khi có xự xuất hiện hành động được biểu thị ở từ kia. Đó là quan hệ giữa những từ kiểu như, ngáy suy ra ngủ, ngáp ngủ suy ra buồn ngủ, gãi suy ra ngứa, gỡ suy ra rối, vá suy ra rách, bội ước suy ra cam kết,Khả năng ứng dụng của Mạng từCó thể chắc chắn một điều rằng, cho đến nay, trên thế giới vẫn chưa có một nguồn tài nguyên từ vựng trực tuyến được tổ chức dựa trên các quan hệ ngữ nghĩa nào lớn hơn, toàn diện, và hệ thống hơn Mạng từ.Mạng từ nói chung trước hết là một tài nguyên từ vựng dành cho máy tính. Vì vậy, hàng loạt các công việc liên quan đến ứng dụng máy tính vào xử lí ngôn ngữ tự nhiên, liên quan đến lĩnh vực khoa học trí tuệ nhân tạo, đều cần đến Mạng từ, hoặc chí ít, nếu sử dụng Mạng từ thì kết quả công việc sẽ được cải thiện một cách đáng kể. Những công việc liên quan đến máy tính cần đến Mạng từ là dịch máy, trích rút và phục hồi thông tin, đo đạc ngữ nghĩa, tách từ, nhận dạng tiếng nói, tổng hợp tiếng nói, soạn thảo văn bản, kiểm tra lỗi chính tả, phân loại văn bản, tóm tắt văn bản, hỏi và trả lời tự động, xây dựng các nguồn tài nguyên từ vựng hay liên quan đến từ vựng hoặc sử dụng tới từ vựng dành riêng cho máy, xây dựng các mạng ngữ nghĩa,….Xét từ góc độ ngôn ngữ học, với tư cách là một sản phẩm liên ngành ngôn ngữ học – khoa học máy tính – tâm lí học, Mạng từ ra đời là để kiểm chứng cho một số lí thuyết ngôn ngữ học tâm lí, tâm lí học tri nhận… về trí nhớ ngữ nghĩa được hình thành và phát triển vào giữa thế kỉ trước; đồng thời, nó cũng là một phần kết quả dẫn xuất từ các nghiên cứu thực nghiệm về bệnh học ngôn ngữ, thụ đắc ngôn ngữ,… Thậm chí, Mạng từ, nói như một số người từng nhận xét, được xem như là một công trình lớn nhất về từ vựng để minh chứng cho chủ nghĩa cấu trúc trong ngôn ngữ học thế kỉ XX (Geeraerts, 2010). Vì thế, trên thực tế, Mạng từ có thể được ứng dụng vào nhiều công việc liên quan đến việc nghiên cứu và giảng dạy tiếng. Mạng từ có thể được sử dụng như một cuốn từ điển trực tuyến để tra cứu từ vựng. Chẳng hạn. hiện nay hầu như tất cả các nguồn tài nguyên từ vựng đa ngữ (Anh – Việt, Anh – Trung, Anh – Đức, Anh – n,…), đơn ngữ dưới dạng trực tuyến hay điện từ đều đã sử dụng tới Mạng từ tiếng Anh.Bởi Mạng từ của mỗi một ngôn ngữ có thể được xem như là một mô hình từ vựng tinh thần toàn diện và lớn nhất cho chính ngôn ngữ ấy, vì thế, nhiều công việc nghiên cứu và ứng dụng liên ngành ngôn ngữ học – tâm lí học (như nghiên cứu các phạm trù tâm lí – ngôn ngữ, các mã tâm lí, nhận thức trong quá trình phạm trù hoá hiện thực,…) đều phải cần đến Mạng từ. Mạng từ, đối với những ứng dụng như thế này, có thể vừa được xem như là những điểm xuất phát vừa được xem như là những điểm đích để người ta xây dựng và hoàn thiện. Vì là một mô hình từ vựng tinh thần, Mạng từ cũng có thể được sử dụng cho các công việc liên quan đến việc phục hồi ngôn ngữ, chữa các bệnh liên quan đến ngôn ngữ,…Với từ cách là một cơ sở dữ liệu về nghĩa từ và các quan hệ ngữ nghĩa đầu tiên và hệ thố́ng nhất của ngôn ngữ, người ta có thể sử dụng phương pháp luận của Mạng từ để phát triển, biên soạn các loại từ điển ngữ văn, từ điển chuyên ngành thứ cấp, có thể sử dụng Mạng từ vào các công việc nghiên cứu ngôn ngữ nói chung và đối chiếu ngôn ngữ nói riêng…————1 http://vienngonnguhoc.gov.vn/bai-viet/hoi-thao-khoa-hoc-huong-toi-viec-xay-dung-mang-tu-tieng-viet_581.aspx2 http://wordnet.vn/vi/chi-tiet/tong-quan-ve-xay-dung-mang-tu-tieng-viet-18-1.html

Leave a Reply

Your email address will not be published. Required fields are marked *