Введение в семантические технологии

Семантические технологии – один из путей дальнейшего развития Интернета. Идеологом «семантической паутины» является Тим Бернерс-Ли, один из отцов-основателей современного Интернета. Основная идея, на которой базируются семантические технологии, состоит в переходе от потокового представления информации (гипертекст, изображения, видео – все основные виды содержимого Интернета – являются именно поточными данными) к семантическому. Данные, представленные в семантической форме, записываются в виде «подлежащее – сказуемое – дополнение». Такое информационное сообщение называется триплетом. Один триплет сообщает нам один конкретный факт, например: «ООО Альфа является клиентом». «ООО Альфа имеет ИНН, равный 6671034959». Подлежащее всегда представляет собой какой-либо объект, дополнение может быть другим объектом или литералом (числом, датой и т.д.), а сказуемое выражает любой вид связи между объектами, либо свойства, которым обладает какой-либо объект. Любую информацию можно записать в семантической форме.

Для того, чтобы записанная в такой форме информация могла быть обработана компьютером, необходимо определить все возможные виды объектов, их свойств и связей между ними. Такое описание называется онтологией. По назначению онтология похожа на схему XSD, которая задает все возможные теги и их свойства, содержащиеся в файле XML. Для представления данных в семантической форме разработан целый набор технологий, которые консорциум W3C утвердил в качестве стандартов. Перечислим некоторые из них:

RDF – язык записи триплетов. Выражения RDF могут быть записаны в разных синтаксисах – например, в XML, или более лаконичном Turtle.

RDFS – язык описания схем RDF.

OWL – язык описания онтологий.

SPARQL – технология создания хранилищ данных RDF, а также язык запросов, при помощи которых можно извлекать из него информацию.

Одним из популярных применений семантических технологий являются микро-форматы. Они позволяют записывать в структурированном виде адреса, свойства товаров, контактные данные людей. Если информация в таком виде размещена на сайте, поисковые машины будут индексировать ее не как поток текста, а как осмысленную, структурированную информацию. Например, Яндекс будет показывать адрес компании в структурированном виде, поместит офис компании на карте, если адрес записан на сайте при помощи микро-формата.

Микро-форматы – это примеры небольших, частных онтологий. Наряду с ними, существуют большие универсальные онтологии, содержащие «корневые» понятия, необходимые для описания реальности – такие, как Дублинское ядро (Dublin Core). Разработчики частных онтологий могут создавая свои собственные онтологии, основываясь на таких стандартных – наследуя определенные в них объекты и свойства.

Если вы хотите больше узнать о семантических технологиях и путях их применения – рекомендуем, прежде всего, познакомиться с языком SPARQL. Потренироваться в его использовании можно на проекте DBPedia, который представляет в структурированной форме информацию, содержащуюся в Википедии. Более глубокие собственные эксперименты можно провести при помощи SPARQL-сервера от Apache Group, который называется Fuseki.

Технологии компании Бизнес Семантика