Trang chủ / Nghiên cứu khoa học / Đề tài khoa học

XÂY DỰNG MÔ HÌNH ỨNG DỊCH VỤ WEB NGỮ NGHĨA NHẰM NÂNG CAO HIỆU NĂNG CÁC DỊCH VỤ THƯ VIỆN ĐIỆN TỬ

Đăng lúc: 03/11/2022 (GMT+7)

100%

Web Serivce là công nghệ cho phép Client truy xuất để thực hiện tất cả các tác vụ như một Web Application. Thư viện số phải thường xuyên xử lý một lượng lớn thông tin từ các dạng tài liệu số. Áp dụng công nghệ semantic web chúng ta có thể nghiên cứu và phát triển hệ thống thư viện số có thể thực hiện xử lý, lưu trữ, tìm kiếm và phân tích tất cả các kiểu thông tin số. Công nghệ ngữ nghĩa cho phép miêu tả đối tượng, thiết lập các lược đồ cần thiết trong các dạng của ontologies cho các định danh của các đối tượng số. Mục tiêu chính là làm cho thao tác giữa các phần có thể xử lý thông minh, nhất quán, mạch lạc tương tự các lớp của đối tượng số và các dịch vụ.

1.Khái niệm Web ngữ nghĩa và dịch vụ Web

1.1. Web ngữ nghĩa

* Khái niệm Web ngữ nghĩa (Semantic Web - SW)[4].

World Wide Web (Web) đã trở thành một kho tàng thông tin khổng lồ của nhân loại và một môi trường chuyển tải thông tin không thể thiếu được trong thời đại công nghệ thông tin ngày nay. Sự phổ biến và bùng nổ thông tin trên Web cũng đặt ra một thách thức mới là làm thế nào để khai thác được thông tin trên Web một cách hiệu quả, mà cụ thể là làm sao để máy tính có thể trợ giúp xử lý tự động được chúng. Muốn vậy, trước hết máy tính phải hiểu được thông tin trên các tài liệu Web, trong khi ở thế hệ Web hiện tại thông tin được biểu diễn dưới dạng chỉ con người mới đọc hiểu được.

Web ngữ nghĩa không là Web riêng biệt mà là một sự mở rộng của Web hiện tại, theo cách thông tin được xác định ý nghĩa tốt hơn, nó cho phép máy tính và người cộng tác với nhau tốt hơn. SW được hình thành từ ý tưởng của Tim Berners-Lee, người phát minh ra WWW (World Wide Web), URI (Uniform Resource Identification), HTTP, và HTML. SW là một mạng lưới các thông tin được liên kết sao cho chúng có thể được xử lý dễ dàng bởi các máy tính ở phạm vi toàn cầu. Nó được xem là cách mô tả thông tin rất hiệu quả trên World Wide Web, và cũng được xem là một cơ sở dữ liệu có khả năng liên kết toàn cầu. SW là một phương pháp cho phép định nghĩa và liên kết dữ liệu một cách có ngữ nghĩa hơn nhằm phục vụ cho máy tính có thể “hiểu” được. SW còn cung cấp một môi trường chia sẻ và xử lý dữ liệu tự động bằng máy tính[5].

Web ngữ nghĩa là thế hệ Web mới, đang được phát triển và sẽ xuất hiện trong tương lai gần. Hệ thống Web mới này sẽ dần thay thế Web hiện tại song không có nghĩa là hoàn toàn khác hệ thống Web hiện tại. SW được phát triển trên hệ thống Web hiện tại bằng cách bổ sung thêm ngữ nghĩa cho các tài nguyên Web mà máy tính có thể hiểu và tăng khả năng xử lý tự động.

*Kiến trúc Web ngữ nghĩa[4], [5].

Web ngữ nghĩa là một tập hợp/một chồng (stack) các ngôn ngữ. Tất cả các lớp của SW được sử dụng để đảm bảo độ an toàn và giá trị thông tin trở nên tốt nhất.

- Lớp Unicode & URI: Bảo đảm việc sử dụng tập kí tự quốc tế và cung cấp phương tiện nhằm định danh các đối tượng trong Semantic Web. URI đơn giản chỉ là một định danh Web giống như các chuỗi bắt đầu bằng “http” hay “ftp” mà bạn thường xuyên thấy trên mạng (ví dụ: http://www.cadkas.com).Bất kỳ ai cũng có thể tạo một URI, và có quyền sở hữu chúng. Vì vậy chúng đã hình thành nên một công nghệ nền tảng lý tưởng để xây dựng một hệ thống mạng toàn cầu thông qua đó.

- Lớp XML cùng với các định nghĩa về namespace (vùng tên gọi/ không gian tên) và schema (lược đồ) bảo đảm rằng chúng ta có thể tích hợp các định nghĩa Semantic Web với các chuẩn dựa trên XML khác.

- Lớp RDF [RDF] và RDFSchema [RDFS]: ta có thể tạo các câu lệnh (statement) để mô tả các đối tượng với những từ vựng và định nghĩa của URI, và các đối tượng này có thể được tham chiếu đến bởi những từ vựng và định nghĩa của URI ở trên. Đây cũng là lớp mà chúng ta có thể gán các kiểu (type) cho các tài nguyên và liên kết. Và cũng là lớp quan trọng nhất trong kiến trúc SW.

- Lớp Ontology: hỗ trợ sự tiến hóa của từ vựng vì nó có thể định nghĩa mối liên hệ giữa các khái niệm khác nhau. Một Ontology (bản thể luận trong logic) định nghĩa một bộ từ vựng mang tính phổ biến & thông thường, nó cho phép các nhà nghiên cứu chia sẻ thông tin trong một hay nhiều lĩnh vực.

- Lớp Digital Signature: được dùng để xác định chủ thể của tài liệu (ví dụ: tác giả hay nhan đề của một loại tài liệu).

- Các lớp Logic, Proof, Trust: Lớp logic cho phép viết ra các luật (rule) trong khi lớp proof (thử nghiệm) thi hành các luật và cùng với lớp trust (chấp nhận) đánh giá nhằm quyết định nên hay không nên chấp nhận những vấn đề đã thử nghiệm.

1.2. Dịch vụ Web

Theo định nghĩa của W3C (World Wide Web Consortium), dịch vụ Web là một hệ thống phần mềm được thiết kế để hỗ trợ khả năng tương tác giữa các ứng dụng trên các máy tính khác nhau thông qua mạng Internet, giao diện chung và sự gắn kết của nó được mô tả bằng XML. Dịch vụ Web là tài nguyên phần mềm có thể xác định bằng địa chỉ URL, thực hiện các chức năng và đưa ra các thông tin người dùng yêu cầu. Một dịch vụ Web được tạo nên bằng cách lấy các chức năng và đóng gói chúng sao cho các ứng dụng khác dễ dàng nhìn thấy và có thể truy cập đến những dịch vụ mà nó thực hiện, đồng thời có thể yêu cầu thông tin từ dịch vụ Web khác. Nó bao gồm các mô đun độc lập cho hoạt động của khách hàng và doanh nghiệp và bản thân nó được thực thi trên server.

Giá trị cơ bản của dịch vụ Web dựa trên việc cung cấp các phương thức theo chuẩn trong việc truy nhập đối với hệ thống đóng gói và hệ thống kế thừa. Các phần mềm được viết bởi những ngôn ngữ lập trình khác nhau và chạy trên những nền tảng khác nhau có thể sử dụng dịch vụ Web để chuyển đổi dữ liệu thông qua mạng Internet theo cách giao tiếp tương tự bên trong một máy tính. Do vậy, việc phát triển và tích hợp các ứng dụng với dịch vụ Web đang được quan tâm phát triển là điều hoàn toàn dễ hiểu. Đặc biệt là việc ứng dụng dịch vụ Web ngữ nghĩa nhằm nâng cao hiệu năng các dịch vụ thư viện điện tử.

Ứng dụng dịch vụ Web ngữ nghĩa nhằm nâng cao hiệu năng các dịch vụ thư viện điện tử.

2.1. Web ngữ nghĩa trong thư viện số

Thư viện số phải thường xuyên xử lý một lượng lớn thông tin từ các dạng tài liệu số. Phần lớn chúng được rút ra từ thư viện truyền thống, được tập trung biên tập lại thành nguồn thông tin sẵn dùng cho một nhóm người liên quan bằng cách quét bài báo, sách, tài liệu… Bằng cách này đã làm hạn chế lợi thế của các hệ thống máy tính hiện đại và gây khó khăn cho quá trình xử lý sau này. Áp dụng công nghệ semantic web chúng ta có thể nghiên cứu và phát triển hệ thống thư viện số có thể thực hiện xử lý, lưu trữ, tìm kiếm và phân tích tất cả các kiểu thông tin số. Công nghệ ngữ nghĩa cho phép miêu tả đối tượng, thiết lập các lược đồ cần thiết trong các dạng của ontologies cho các định danh của các đối tượng số[6]. Mục tiêu chính là làm cho thao tác giữa các phần có thể xử lý thông minh, nhất quán, mạch lạc tương tự các lớp của đối tượng số và các dịch vụ.

Nguyên liệu chính để xây dựng web ngữ nghĩa là các siêu dữ liệu, trong các thư viện số cũng vậy, các tài liệu cũng phải được biểu diễn bởi các siêu dữ liệu. Nếu tài liệu là những khối xây dựng căn bản của thư viện số, thì ngôn ngữ đánh dấu và các siêu dữ liệu là những yếu tố tổ chức. Ngôn ngữ đánh dấu được dùng để chỉ rõ cấu trúc của tài liệu riêng lẻ và kiểm soát phương thức trình bày cho người sử dụng. Các siêu dữ liệu được dùng để xúc tiến việc truy cập đến những phần thích hợp của tài liệu qua việc tìm kiếm. Trong các thư viện số có sự khác biệt quan trọng giữa siêu dữ liệu hiện và siêu dữ liệu ẩn. Siêu dữ liệu hiện được xác định bởi con người sau khi xem xét cẩn thận và phân tích tài liệu. Siêu dữ liệu ẩn được trích xuất tự động từ nội dung tài liệu nhờ kĩ thuật khai thác văn bản. Công việc này thường khó thực hiện chính xác. Khai thác văn bản, được định nghĩa như một tiến trình phân tích văn bản để trích thông tin hữu ích cho mục đích cụ thể, đó là một đề tài nghiên cứu nóng bỏng hiện nay.

Trong thư viện số ngữ nghĩa, ý nghĩa của nội dung tài liệu được thể hiện tốt hơn, và những liên kết logic được thực hiện giữa những thông tin liên quan với nhau. Tuy nhiên, việc xây dựng bản thể luận cho một lĩnh vực cụ thể là một công việc đầy khó khăn và thách thức. Đối tượng quản lí chính của thư viện số là các tài liệu số (sách, báo, tạp chí điện tử, các tài nguyên đa phương tiện, v.v...). Trong thư viện số, số lượng tài liệu có thể lên tới hàng trăm triệu tài liệu, ngoài chức năng lưu trữ tài liệu, còn phải hỗ trợ người dùng tra cứu tài nguyên trong một kho dữ liệu khổng lồ với thời gian nhanh nhất và chính xác nhất.

Các thư viện số truyền thống cho phép người dùng tìm kiếm thông qua cấu trúc phân mục tài liệu hoặc qua tìm kiếm từ khóa nhờ kĩ thuật lập chỉ mục cho nội dung trong tài liệu. Cơ chế phân mục trả lại danh sách các tài liệu tương ứng với câu truy vấn kiểu như: “Liệt kê ra tất cả các tài liệu có tiêu đề bắt đầu bằng chứ V” hoặc “Liệt kê các tài liệu về Mạng máy tính”, còn cơ chế tìm kiếm theo từ khóa trả lại danh các tài liệu mà nội dung có chứa từ khóa trong câu truy vấn, chẳng hạn “Các tài liệu có chứa cụm từ [Khoa học máy tính] nhưng không chứa cụm từ [Phần cứng máy tính]”. Tuy nhiên cả hai cơ chế này đều không hỗ trợ đầy đủ cho các câu truy vấn kiểu như: “liệt kê các tài liệu liên quan đến ngôn ngữ lập trình hướng đối tướng”. Nếu truy vấn trong hệ thống thư viện tìm kiếm theo từ khóa, thì hệ thống sẽ trả lại một tập các danh sách có chứa từ khóa trên, nếu kho tài nguyên có chứa tài liệu “Xây dựng ứng dụng Windows với C#” (C# là một ngôn ngữ lập trình hướng đối tượng) mà nội dung tài liệu không chứa cụm từ “lập trình hướng đối tượng” thì hệ thống sẽ không tìm thấy. Hoặc với truy vấn “liệt kê các tài liệu mạng đồng đẳng” thì máy tính không hiểu được [Mạng ngang hàng] và [Mạng đồng đẳng] là hai khái niệm tương đương.

Như vậy cơ chế tìm kiếm theo từ khóa và theo kiểu duyệt thư mục không giải quyết được các câu truy vấn phức tạp và mang tính trừu tượng cao. Để hỗ trợ các câu truy vấn loại này, một trong các giải pháp là thêm dữ liệu ngữ nghĩa cho hệ thống thư viện số. Các thông tin tin ngữ nghĩa được biểu diễn bởi các siêu dữ liệu đi kèm với mỗi đối tượng tài liệu, cùng với một hay nhiều bản thể luận được cung cấp với ngữ cảnh ngữ nghĩa tương ứng, sẽ trả lời được các câu truy vấn mang tính trừu tượng.

Một thư viện số được tích hợp thêm ngữ nghĩa cho các tài nguyên được gọi là thư viện số ngữ nghĩa. Thư viện số ngữ nghĩa các các đặc điểm chung sau:

- Tích hợp nhiều nguồn thông tin dựa trên các siêu dữ liệu khác nhau (các tài liệu, hồ sơ người dùng, đánh dấu, phân loại,...)

- Cung cấp khả năng tương tác với các hệ thống khác (không chỉ các thư viện số với nhau) thông qua các siêu dữ liệu (RDF là một trong những tài nguyên thông dụng được dùng để trao đổi dữ liệu giữa các thư viện số với các dịch vụ khác).

- Cung cấp khả năng tìm kiếm theo ngữ nghĩa mạnh mẽ hơn so với các cách tìm kiếm thông thường và tra cứu tài liệu một cách dễ dàng.

2.2. Nâng cao hiệu năng dịch vụ thư viện điện tử thông qua dịch vụ Web ngữ nghĩa

Ngày nay chúng ta có thể nhận thấy rằng Internet dựa hoàn toàn vào nội dung. Web hiện hành chỉ cho con người đọc chứ không dành cho máy hiểu, Semantic Web sẽ cung cấp ý nghĩa cho máy hiểu.

Ví dụ: Bức tường là một ban nhạc nổi tiếng của Việt Nam;

Vịnh Hạ Long là di sản thiên nhiên thế giới

Những câu như thế này có thể hiểu bởi con người nhưng làm sao chúng có thể được hiểu bởi máy tính? Semantic Web là tất cả những gì về cách tạo một Web mà cả người và máy có thể hiểu. Người dùng tin sẽ vẫn có thông tin trình bày theo cách trước đây, nhưng đối với máy tính, Semantic Web sẽ làm cho máy hiểu được nghĩa và tìm ra thông tin chính xác hơn Web hiện hành. Bây giờ, máy không phải suy luận dựa vào ngữ pháp và các ngôn ngữ đánh dấu nữa vì cấu trúc ngữ nghĩa của văn bản thực sự đã chứa nó rồi. Vì vậy, trước hết phải thay đối mô hình trong cách con người nghĩ về dữ liệu. Trong các công nghệ Web truyền thống, phần mềm tốt hoàn toàn phụ thuộc vào dữ liệu tốt. Web ngữ nghĩa làm công việc di chuyển các ứng dụng sang dữ liệu.

Thư viện số phải thường xuyên xử lý một lượng lớn thông tin từ các dạng tài liệu số. Phần lớn chúng được rút ra từ thư viện truyền thống, được tập trung biên tập lại thành nguồn thông tin sẵn dùng cho một nhóm người liên quan bằng cách quét bài báo, sách, tài liệu… Bằng cách này đã làm hạn chế lợi thế của các hệ thống máy tính hiện đại và gây khó khăn cho quá trình xử lý sau này. Áp dụng công nghệ semantic web chúng ta có thể nghiên cứu và phát triển hệ thống thư viện số có thể thực hiện xử lý, lưu trữ, tìm kiếm và phân tích tất cả các kiểu thông tin số. Công nghệ ngữ nghĩa cho phép miêu tả đối tượng, thiết lập các lược đồ cần thiết trong các dạng của ontologies cho các định danh của các đối tượng số. Mục tiêu chính là làm cho thao tác giữa các phần có thể xử lý thông minh, nhất quán, mạch lạc tương tự các lớp của đối tượng số và các dịch vụ.

Thông thường một thư viện số sử dụng dữ liệu mô tả có cấu trúc để mô tả hệ thống thư mục tuy nhiên các trường trong dữ liệu mô tả lại không được định nghĩa ngữ nghĩa một cách đầy đủ, việc ứng dụng ontologies trong thư viện số không những thực hiện lưu trữ dữ liệu mô tả để mô tả hệ thống thư mục mà còn mô tả được nội dung của nó. Thay vì trong trường hợp một quyển sách được lưu trữ trong thư viện số chúng ta có thể tách riêng cấu trúc từng chương của nó, cung cấp mô tả cho mỗi chương và thực hiện lưu trữ mối quan hệ của các chương khác nhau. Bằng việc sử dụng tư tưởng cấu trúc của ontologies và sử dụng tư tưởng này trong việc mô tả dữ liệu, chúng ta cung cấp một tầng tổng quát dữ liệu mô tả và nội dung.

Hệ thống dữ liệu của thư viện số rất lớn và đa dạng nó thường phục vụ cho nhiều tổ chức, cá nhân vào nhiều mục đích khác nhau, trong khi đó dữ liệu chủ yếu thuộc vào hai dạng là dữ liệu có cấu trúc và dữ liệu phi cấu trúc. Một vấn đề dăt ra là làm thế nào để các ứng dụng sử dụng được đồng thời cả hai loại dữ liệu này, bởi vì trên thưc tế mỗi ứng dụng chỉ sử dụng một loại dữ liệu có cấu trúc hoặc phi cấu trúc. Chúng ta có chuẩn chung phục vụ cho hầu hết các loại ứng dụng đó là sử dụng XML, nó được xem là nền tảng công nghệ của semantic web. Nó sẽ là cầu nối thực hiện chuẩn hoá các nguồn dữ liệu, từ đó có thể phục vụ cho mọi loại ứng dụng.

Kết luận

Với việc ra đời của Internet đã mang lại nhiều hữu ích cho con người, đặc biệt là trong tìm kiếm thông tin. Tuy nhiên việc tìm tin trên mạng thường bị nhiễu và nhiều khi rất khó lựa chọn được thông tin cần thiết. Semantic Web ra đời hy vọng sẽ sớm khắc phục được những nhược điểm này, góp phần nâng cao hiệu quả của mạng toàn cầu trong việc tìm và khai thác thông tin của người dùng. Các dịch vụ Web có khả năng tích hợp các ứng dụng trên phạm vi rộng như dịch vụ chọn lọc và phân loại tin tức trong các hệ thống thư viện điện tử để tìm kiếm các thông tin cần thiết. Việc phát triển và tích hợp các ứng dụng với dịch vụ Web trong thư viện điện tử đang được quan tâm phát triển là điều hoàn toàn dễ hiểu. Chúng ta hoàn toàn xây dựng được các mô hình ứng dụng dịch vụ Web ngữ nghĩa tìm kiếm tài liệu, sách điện tử trong thư viện điện tử, xây dựng mô hình ứng dụng dịch vụ hướng đối tượng nhằm nâng cao hiệu năng các dịch vụ thư viện điện tử.

TÀI LIỆU THAM KHẢO

[1]. Đặng Tiểu Hùng (2004), Phương pháp biểu diễn ngữ nghĩa lân cận siêu liên kết cho máy tìm kiếm VietSeek, Luận văn thạc sĩ, Khoa Công nghệ, Đại học QGHN.

[2]. Đoàn Sơn (2001), Các phương pháp biểu diễn và ứng dụng trong khai phá dữ liệu văn bản, Luận văn thạc sĩ, Khoa Công nghệ - Đại học Quốc gia Hà Nội.

[3]. John Wiley and Sons Semantic Web Technologies Trends and Research in Ontology based Systems, Jul 2006.

[4] Liyang Yu, Introduction to the Semantic Web and Semantic Web Services.

[5] Expl Kruk Sebastian Ryszard, Decker Stefan, Zieborak Lech. Adding Semantic Web Technologies to Digital Libraries, 2005.

[6]. Sebastian Ryszard Kruk1, Bernhard Haslhofer, Piotr Piotrowski, Adam Westerski, Tomasz Woroniecki1 - The Role of Ontologies in Semantic Digital Libraries

Tác giả: Ths. Tào Ngọc Biên

Các tin khác