Phần mềm tốt nhất cho người dùng

1. Giới thiệu
Đối với nhiều ngôn ngữ, nhu cầu dịch thuật từ tiếng mẹ đẻ sang các ngôn ngữ khác rất cao. Ví dụ: ở Trung Quốc, vì chỉ có một số lượng hạn chế người nói tiếng Anh bản ngữ có thể dịch từ tiếng Trung sang tiếng Anh, nên cần có các dịch giả nói tiếng Trung bản ngữ dịch ra tiếng mẹ đẻ của họ. Việt nam ở trong trường hợp đặc biệt do nhu cầu xuất khẩu hang hóa sang các quốc gia châu Âu và Hoa kỳ cũng như nhu cầu tiếp thu công nghệ mới, phần lớn bằng Anh ngữ, nên luôn luôn có tình trạng thiếu thông phiên dịch có khả năng ngôn ngữ cũng như có kiến thức về máy tính và phần mềm liên quan.
Nhiều người cho rằng Google Translate và Bing của Microsoft sẽ dần dần thay thế con người trong hai lãnh vực phiên dịch và thông dịch. Nhận định đó có phần lạc quan thái quá. Thực ra hai phần mềm nêu trên có góp phần trong công tác phiên dịch, nhưng chất lượng còn kém, chưa thể thay thế hoàn toàn con người, đặc biệt cho việc phiên dịch các tài liệu Khoa học và Kỹ thuật cũng như Nhân văn.
Người dùng nói chung cần có khả năng sử dụng máy tính và các phần mềm, cho phiên dịch cũng như cho phân tích văn bản.
Trong bài này chúng tôi sẽ trình bày những điều căn bản về phần mềm dịch máy và phân tích văn bản. Tất cả những phần mềm này đều dựa trên ngữ liệu (corpus), đặc biệt là ngữ liệu song ngữ mà chúng tôi cung cấp trên trang Web này.
Chúng tôi trình bày các thí dụ về việc dùng các phần mềm này cho tiếng Việt và tiếng Anh, nhưng chúng cũng được dùng cho các ngôn ngữ phổ biến trên thế giới.
Nói tóm lại để có khả năng tìm việc làm thích hợp trong lãnh vực Thông/Phiên dịch và Phân tích Văn bản (Text Analysis), người dùng cần có kiến thức về:

  1. Ngôn ngữ học Ngữ liệu (Corpus Linguistics), đặc biệt là Ngữ liệu Song ngữ (Parallel Corpora) cũng như việc tạo các ngữ liệu song ngữ, như Việt-Anh, Việt-Pháp, Việt-Trung, Việt-Hàn, Việt-Nhật. Xin tham khảo các ngữ liệu đăng trong trang web này.
  2. Thông thạo các phần mềm về Phân tích Văn bản và Dịch máy mà chúng tôi lần lược trình bày trong trang web này.

Trong bài này chúng tôi trình bày các hình ảnh về các phần mềm mà chúng tôi sử dụng hàng ngày.

A-Phần mềm Phiên dịch và Bộ nhớ Phiên dịch

Hình 1: Dùng phần mềm phiên dịch với Bộ nhớ Phiên dịch do tôi thực hiện. Trong thí dụ này, tôi dịch tài liệu từ tiếng Anh sang tiếng Việt. Thay vì dung Google Translate thiếu chính xác. Trong việc Máy dịch này, tôi dung bộ nhớ phiên dịch cá nhân do tôi soạn từ ngữ liệu song ngữ Anh-Việt (trong hình có ghi General TM by LQV (Bộ nhớ Phiên dịch Tổng quát do Lê Quang Văn soạn). Mỗi khi cần dịch một câu, phần mềm phiên dịch sẽ tìm trong Bộ nhớ Phiên dịch Tổng quát này để xem có câu nào giống y (hay gần giống với câu cần dịch) thì giới thiệu với mức chính xác cao hay thấp.
Trong câu phải dịch này, phần mềm cho thấy đã tìm được câu có mức chính xác 90% (dấu đỏ trên cùng). Như vậu người dùng chấp nhận để phần mềm phiên dịch tự động điền vào. Kết quả là nhờ phần mềm phiên dịch và Bộ nhớ Phiên dịch Tổng quát này mà công tác phiên dịch được hoàn thành nhanh chóng và có chất lượng.

Hình 2 – Phần mềm LogiTerm Pro – Trong trường hợp cần căn chỉnh (alignment) hay tìm các từ / câu mà không dùng phần mềm dịch máy, người dùng có thể dùng nhiều phần mềm khác, trong đó có LogiTerm Pro. Trong hình trên chúng tôi liệt kê ngữ liệu song ngữ Anh-Việt. Khi cần tìm những câu dịch có từ “war”, phần mềm này sẽ tìm trong ngữ liệu song ngữ Anh-Việt do chúng tôi soạn và liệt kê những câu nào có từ “war” được dịch thành “chiến tranh”. Trong trường hợp một từ tiếng Anh có nhiều nghĩa khác nhau trong tiếng Việt, chúng tôi cũng có thể “lọc” (filter) để chỉ chọn những câu nào thích hợp với nghĩa mong muốn. Chúng tôi có khả năng tạo ngữ liệu song ngữ đã căn chỉnh ở dạng cặp câu, cho nhiều cặp (Anh-Việt, Pháp-Việt, Tây-Ban-Nha-Việt, v.v. Nếu cần xin liên lạc với chúng tôi qua trang web này.

B-Phần mềm Phân tích Văn bản

Hình 3: Phần mềm AntConc. Hình trên cho thấy chúng tôi dùng AntConc trong việc phân tích văn bản. Thí dụ tìm cách dùng từ “especially” trong nhiều ngữ cảnh (context) khác nhau cũng như tìm các từ thường đi chung (collocation) và được trình bày theo hình thức nằm ngang (concordance). Cách trình bày này khác với những gì chúng ta dùng từ trước: đọc từ trên xuống dưới. Concordancing giúp chúng ta học về các nhóm từ thường xuất hiện chung với nhau cũng như tìm hiều các giới từ (preposition), như “in”, “at”, “on”, “with”, v.v. đi sau động từ.

Hình 4: Phần mềm Voyant Tools cho thấy phân tích ngữ liệu song ngữ Anh-Việt tổng hợp các bài về cuộc chiến Việt-Trung xảy ra năm 1979.

Hình 5: Phần mềm Voyant Tools – Phân tích bài “Bình Ngô Đại Cáo”

Hình 6: Phần mềm Voyant Tools – Phân tích bài “Bình Ngô Đại Cáo”

Hình 7: Phần mềm Sketch Engine. Hình trên liệt kê một phần ngữ liệu song ngữ Anh-Việt về Kinh tế Tài chính của Việt Nam. Hình cho thấy khi tìm chữ “trade” trong phần tiếng Anh, chúng ta có cả các câu gốc (tiếng Anh) và câu dịch (tiếng Việt), với các chữ tương ứng có màu đỏ. Chúng tôi đã tạo nhiều ngữ liệu song ngữ Anh-Việt cho các lãnh vực quan trọng như: Tin tức (News), Chính trị (Politics), Y tế – Chăm sóc Sức khỏe (Medicine- Healthcare), Kinh tế-Tài chính (Economic-Finance), v.v.

C-Kết luận:
Hiện nay chúng ta đã có khả năng tạo các ngữ liệu đơn ngữ và song ngữ nhằm đáp ứng các công tác thông phiên dịch và phân tích văn bản. Điều quan trọng là tạo ngữ liệu song ngữ thích nghi và căn chỉnh ở mực câu (phrase) hay vì đoạn văn (paragraph) để làm bộ nhớ phiên dịch cũng như để dạy người học cách phân tích văn bản tiếng Việt cũng như tiếng nước ngoài.

Leave a Reply

Your email address will not be published. Required fields are marked *