Semantic web что это
Semantic Web
Эта концепция была принята и продвигается Консорциумом W3. Для её внедрения предполагается создание сети документов, содержащих метаданные о ресурсах Всемирной паутины и существующей параллельно с ними. Тогда как сами ресурсы [2] предназначены для восприятия человеком, метаданные используются машинами (поисковыми роботами и другими интеллектуальными агентами) для проведения однозначных логических заключений о свойствах этих ресурсов.
Содержание
Основная идея
Семантическая паутина — это надстройка над существующей Всемирной паутиной, которая призвана сделать размещённую в ней информацию более понятной для компьютеров. Машинная обработка возможна в семантической паутине благодаря двум её важнейшим характеристикам:
Критика
Практическая реализуемость
Несмотря на все преимущества, предоставляемые семантической паутиной в случае её внедрения, существуют сомнения в возможности её полной реализации.
Разные комментаторы высказывают различные причины, которые могут быть препятствием к этому, начиная с человеческого фактора [3] (люди склонны избегать работы по поддержке документов с метаданными, открытыми остаются проблемы истинности метаданных, и т. д.), и заканчивая косвенным указанием Аристотеля на отсутствие очевидного способа деления мира на концепты, что ставит под сомнение возможность существования онтологии верхнего уровня, критической для семантической паутины (см. понятие differentia specifica в «Топике»).
Дублирование информации
Необходимость описания метаданных так или иначе приводит к дублированию информации. Каждый документ должен быть создан в двух экземплярах: размеченным для чтения людьми, а также в машинно-ориентированном формате. Этот недостаток семантической паутины был главным толчком к созданию так называемых микроформатов и языка RDFa. Последний является вариантом языка RDF и отличается от него тем, что не определяет собственного синтаксиса, а предназначен для внедрения в XML-атрибуты XHTML-страниц.
Реализация
Языки описания
Техническую часть семантической паутины составляет семейство стандартов на языки описания, включающее XML Schema, RDF, RDF Schema, OWL, а также некоторые другие. Располагая их в порядке повышения уровня абстракции, реализуемого тем или иным языком, получаем:
Логический вывод
Форматы описания метаданных в семантической паутине предполагают проведение логического вывода на этих метаданных, и разрабатывались с оглядкой на существующие математические формализмы в этой области. Математическое обоснование тех или иных конструкций языка описания необходимо для проведения заключений о свойствах программ, обрабатывающих данные в этом формате.
Простая структура предикатов языка RDF, в свою очередь, позволяет использовать при его обработке опыт из теорий логических баз данных, логики предикатов, и т. д.
Проекты
Дублинское ядро
Одним из первых серьёзных и популярных проектов, основанным на принципах семантической паутины, стал проект «Дублинское ядро» (англ. Dublin Core ), реализуемый инициативной организацией Dublin Core Metadata Initiative (DCMI). Это открытый проект, цель которого — разработать стандарты метаданных, которые были бы независимы от платформ и подходили бы для широкого спектра задач. Конкретнее, DCMI занимается разработкой словарей метаданных общего назначения, стандартизирующих описания ресурсов в формате RDF.
RSS (версий 0.90 и 1.0)
Помимо недостатков, RSS унаследовал и все достоинства форматов из семейства семантической паутины: гибкость RSS позволяет использовать его не только для проверки на наличие новой информации на регулярно обновляющихся сайтах, но и для подкастов, и торренткастов (см. Broadcatching).
Заметим, что формат RSS версии 2.0, хотя и не является форматом, основанным на RDF, позволяет внедрение произвольного XML-содержимого, находящегося в собственных пространствах имён XML. Это позволяет использовать RDF-описания также и в нём (используя пространство имён rdf ).
Проект «» («Друг друга») позволяет описывать отношение знакомства с помощью RDF. Любой его участник может идентифицировать себя уникальным образом с помощью URI (например, mailto-адресом электронной почты, адресом блога, и т. п.), создать свой профиль, используя предопределённые для FOAF отношения на языке RDF, и перечислить идентификаторы людей, которых этот участник знает. Это описание может обрабатываться автоматически; на его основе можно строить сети доверия, анализировать структуру социальных групп, и т. д.
Семантические веб-сервисы
В то время как совокупность ресурсов и их метаданных можно считать статической частью семантической паутины, её динамическую часть представляют т. н. семантические веб-сервисы — законченные элементы программной логики с однозначно описанной семантикой, доступные через Интернет и пригодные для поиска, композиции и выполнения.
Технически, семантический веб-сервис отличается от обычного веб-сервиса наличием не только описания интерфейса (обычно на языке типов данных, передаваемых сервису, возвращаемых значений и генерируемых ошибок, но и семантического описания всех его характеристик. Заметим, что дублирования данных, упомянутого в числе недостатков семантической паутины, здесь не происходит: WSDL-описания изначально были предназначены для машинной обработки.
Потенциальная выгода от использования семантических веб-сервисов заключается в возможности автоматического поиска (а также композиции) программными агентами подходящих сервисов для решения поставленных задач. Тем не менее, сложность этой задачи в её общей формулировке пока позволяет добиваться некоторых положительных результатов только в узкоспециализированных отраслях, явным образом выигрывающих от внедрения сервисно-ориентированной архитектуры, например в интеграции корпоративных приложений.
Создание семантического веб-приложения
В рамках моего дипломного проекта мне предложили создать систему формирования проектных команд на основе технологий семантической паутины. Так как я уже переболел голым PHP, SQL, ZF, и имел опыт программирования на Ruby on Rails, ознакомившись с существующими гемами и решениями для работы с RDF, решил писать на нём, т.к. не очень люблю яву (да простят меня ява-разработчики), хотя она и является самым передовым языком в области semantic web, intelligent agents, data mining.
Первым шагом было изучение RDF, OWL, SPARQL, arc2, rdf.rb, Spira и прочих технологий, стандартов, модулей.
Сжатый экскурс в Semantic web
DIKW – Итак, у нас есть основные понятия – данные, информация, знания, мудрость, каждое из которых описывается с помощью предыдущего и добавляет то, чего нет на предыдущем уровне. Данные – базовый элемент, строительные блоки. Информация добавляет ответ на вопрос «что?», знание – «как?», мудрость – «почему?» (know-nothing, know-what, know-how, and know-why).
Это сложно понять, поэтому переформулируем: Информация – это данные + метаданные(описание данных, данные о данных). Знание – это информация и правила вывода. То есть, когда мы имеем знание, правила вывода, мы можем из одной информации, получать новую информацию.
Если стандарт RDF оперирует преимущественно информацией, то OWL добавляет к RDF правила вывода новых фактов. И OWL описывается на RDF, всё верно.
Далее по стандартам – SPARQL – язык запросов к хранилищу, очень похож на SQL, но оперирует триплетами. Есть полно вариаций на тему SPARQL от различных производителей RDF storages, всё как в SQL.
nt3, turtle и прочие – вариации на тему RDF/XML. То есть, представляем триплетами в более удобном для чтения/записи/хранения/обработки виде.
При этом всегда субъект и предикат являются сущностями, а объект может быть как сущностью, так и литералом (строкой, числом). Каждая сущность представляется URI. Например наше яблоко представляется в виде
При этом помимо непосредственно данных (ABox) мы должны иметь метаданные (TBox), которые описывают классы, связи между классами, свойства классов, а так же, в случае OWL – взаимоотношения между классами. ABox обычно хранится в репозитории и является описанием конкретных сущностей этого мира, а TBox обычно хранится в так называемых онтологиях. Онтология обычно представляет из себя OWL или RDF файл (который, в свою очередь, может выгружаться некоторым хранилищем).
Таким образом в сумме мы получаем онтологическую базу знаний, которая описывает предметную область (классы, свойства, взаимоотношения) и конкретные сущности этой предметной области (людей, проекты, задачи, дома, товары).
А теперь главный вопрос – зачем всё это нужно, ведь мы можем всё то же самое хранить в реляционных/документных/графовых/объектных БД?
Эта сфера является развивающейся и на данный момент интересной, в первую очередь, с научной точки зрения. Однако уже сейчас существуют средства, которые умеют делать то, чего не умеют делать БД. Знания – это живые данные. Данные, из которых можно получить новые данные.
Если мы знаем, что Петя сын Маши, а Маша сестра Коли, а так же мы знаем, что сестра и брат – симметричные отношения, а брат матери является дядей, то мы можем сделать вывод, что Коля является дядей Пети.
На этом простом примере понятно, что онтологические БЗ в сочетании с системой логического вывода (reasoner) может находить новые факты. Так же существует направление интеллектуального анализа данных (data mining) – смежное с логическим выводом извлечение ранее неизвестных данных. И многие системы ИИ, экспертные системы работают именно с использованием онтологических БЗ, т.к. они отлично подходят для этого.
Также мы получаем распределенную семантическую паутину, знания из которой могут извлекать различные веб-сервисы и интерпретировать их в соответствии с онтологиями. Представьте кучу социальных сетей, в которых информация о каждом человеке может быть загружена в RDF-виде. Это дает возможность загружать и обрабатывать данные из всех этих сетей. Если раньше поисковики и агрегаторы извлекали совершенно лишенный семантики текст, то теперь они смогут извлекать и обрабатывать знания, заданные онтологией.
Итак, перейдем к практике.
Вкратце и упрощенно для нашего приложения – у нас есть люди (FOAF), у каждого человека есть аккаунт и набор компетенций, которыми он владеет, есть проекты (DOAP), в рамках проекта – задачи, каждая из которых требует набора компетенций, которые, в свою очередь, имеют уровень, который имеет численное представление.
Реализация
Используем Ruby 1.9.2
Используем Rails 3.0.7
Итак, мы все будем хранить в Sesame rdf storage кроме аккаунтов (т.к. было бы неприлично хранить хэши паролей в открытом SPARQL доступе)
Для хранения аккаунтов используем MongoDB
Для аутентификации используем Devise
Для работы с Sesame используем Spira, которая построена на rdf.rb
Для работы со SPARQL точкой доступа (которая в данном случае совпадает с Sesame storage) используем sparql-client
Для работы с MongoDB используем Mongoid
Для вёрстки используем haml
Рассмотрим структуру модели Spira document, т.к. она отличается от ActiveRecord и Mongoid.
И давайте отметим наличие возможности извлекать данные из системы посредством не только SPARQL, но и отображение каждой сущности в nt виде:
Итак, мы получили систему поиска кандидатов для выполнения проектов на основе требуемых и имеющихся компетенций.
Данное приложение далеко не идеально, не очень чистый код, нет модульных и интеграционных тестов, нет авторизации, это лишь интересный эксперимент, который стал для меня шагом в понимании и использовании семантических технологий и в области project management, project team formation. И надеюсь что он поможет заинтересовавшимся создавать в будущем семантические приложения на Ruby on Rails и развивать пока что не такие популярные семантические технологии.
Все дипломные документы (пояснительная записка, презентации, доклады на русском и английском языках) можете найти здесь (мало ли кому пригодится более подробное формальное описание, кстати в них много того, чего в приложении нет).
WEB 3.0 или жизнь без сайтов
Тим Бернерс-Ли в 1998 году ввел термин «семантический веб». Идея была проста: давайте научим компьютеры различать значение (смысл) контента, размещенного на веб-страницах, и объединим этот контент в единую семантическую паутину.
Позже концепция осмысленного связывания данных была ассоциирована с термином web 3.0, и грядущая версия интернета мыслилась, как семантическая сеть.
Был разработан и стандартизирован специальный формат для записи семантических данных (RDF), язык для описания предметных областей (OWL) и язык запросов поиска связанных данных (SPARQL). Предполагалось, что все бросятся семантически размечать страницы своих сайтов… Но что-то пошло не так, и где-то к вскоре после 2010 года про web 3.0 практически забыли.
Так вот, даже этого знания о планах плетения семантической паутины уже достаточно, чтобы понять их бесперспективность. Очевидно, что самым слабым звеном в этом проекте является использование в качестве его основы обычных веб-страниц. Во-первых, страницы периодически меняют свои адреса, а то и просто пропадают вместе со всем сайтом и его контентом. Во-вторых, последним, кому стоило бы доверить семантическую разметку, так это владельцам сайтов: у них нет никакого стимула это делать, а если бы они за это и взялись, то понаписали бы что угодно, только бы заманить к себе пользователей (именно по этой причине поисковики давно отказались учитывать ключевые слова при ранжировании страниц). В-третьих, один и тот же контент (статьи, картинки, записи об оффлайн объектах) многократно дублируется на тысячах и тысячах сайтах, что принципиально исключает возможность добиться уникальной адресации. Ведь очевидно, что каждый владелец сайта будет помечать контент, как свой. В-четвертых, даже если предположить, что получилось бы идеально накинуть семантическую сеть на веб-сайты, то для реализации семантического поиска все равно пришлось бы хранить все страницы со всеми дубликатами контента в одном месте, как это и делают современные поисковые машины. И в конечном счете хоть как-то применить семантические технологии удалось только там, где возможна централизованная проверка контента, то есть на мега порталах, типа Google, который стал использовать семантическую разметку данных, предложенную Schema.org.
Итак, давайте подумаем, что же требуется для полноценной реализации проекта глобальной семантической сети? Прежде всего, нужна уникальная идентификация ресурсов: семантическая связанность контента будет осмысленной только в случае, если каждый онлайн и оффлайн объект будет иметь уникальный идентификатор для всех своих копий. Очевидно, что этот идентификатор должен быть присвоен объекту либо его автором/законным владельцем, либо неким уполномоченным лицом, либо в итоге достижения консенсуса многих независимых лиц. При этом, конечно же, должна быть обеспечена идентичность копий контента, то есть возможность надежной проверки их нефальсифицированности. И понятно, что ко всему контенту должен быть обеспечен быстрый доступ.
Получается, что идея семантической сети опередила свое время. Технология, на базе которой она может быть реализована, технология, решающая проблемы, связанные с неудачной попыткой разворачивания семантической паутины на веб-страницах, была разработана на десять лет позже. И потребовалось еще десять лет, чтобы пришло понимание не только возможности, но и необходимости симбиоза семантики и DLT. Семантическая сеть в лице DLT наконец-то получает надежное, верифицируемое, децентрализованное хранилище данных с уникальной идентификацией контента и пользователей.
А что же выигрывает DLT от симбиоза с семантикой?
Или давайте подумаем над правомерностью использования термина “децентрализованные приложение” (DApps). Что в этих DApps децентрализованного? Да только то, что они работают в одноранговой децентрализованной DLT-сети, однотипно обрабатывая сетевые транзакции на каждом из ее узлов. По сути, это обычные контракты-контроллеры, написанные одним программистом (или коллективом программистов). И если запустить такое “децентрализованное” приложение на отдельном сервере (на одном узле), то оно прекрасно будет работать, не утратив ни одной из своих функций, проиграв только в защищенности, которую обеспечивает децентрализованная DLT-сеть.
Получается, что технология DLT, решив проблему децентрализации управления и обмена транзакциями на уровне сетевого протокола и хранения данных, не в состоянии обеспечить децентрализацию на уровне взаимодействия контрагентов конкретной деятельности: для соединения контрагентов, для реализации некой бизнес-функции нужно специальное вполне себе централизованно написанное и централизованно работающее приложение. И понятно, что для расширения функционала этого приложения вновь придется обращаться к тому же посреднику-программисту. А об организации взаимодействия (обмена данными) между различными бизнес-функциями, между работающими DLT-приложениями, написанными разными программистами, и подумать страшно…
Вот тут-то и пора вспомнить о семантике, об исходной идее Тима Бернерса-Ли научить компьютеры различать значение (смысл) контента, об универсальном семантическом языке. И если идея описывать на этом языке контент веб-страниц, в конечном счете, оказалась сомнительной, то использование семантического формата для обмена данными между приложениями DLT-сети выглядит не просто хорошим решением, а естественным развитием технологии.
Технологии Semantic Web
Semantic Web (он же Web of Data, Linked Data, Linking Open Data) — это направление развития Всемирной паутины, позволяющее машинам не только отображать информацию в интернете, но и понимать ее смысл.
Несколько лет назад Semantic Web вырвался за пределы исследовательских лабораторий и стал достоянием широкого круга разработчиков. К сожалению, в русскоязычном сообществе SW распространен пока слабо. Мало русскоязычных наборов данных. Мало приложений, которые с ними работают.
Одна из причин — отсутствие на русском языке полноценного открытого обучающего материала. Есть хорошие узкоспециализированные статьи. Есть хорошие обзоры. Но нет систематического обучающего курса.
Мы с коллегами из ИТИС КФУ при поддержке Computer Science клуба и сообщества SWUG решили сделать такой курс, который я хочу представить хабралюдям. Он состоит из шести частей:
Смотрите первые две части под катом.
Часть I. Введение в семантику и Semantic Web
Скачать в PDF.
Часть II. Формат представления данных RDF
Скачать в PDF.
Буду рад ответить на любые вопросы.
Подпишитесь на наш блог на «Хабре», чтобы не пропустить следующие части курса.
Хочу поблагодарить Сергея shcherbak Щербака (КрНУ), Павла klextor Клинова (Universität Ulm) и Наталью Кеберле (ЗНУ) из сообщества SWUG за ценные замечания, а также коллег из ИТИС и ребят из Computer Science клуба за поддержку.
Курс доступен по свободной лицензии Creative Commons Attribution-ShareAlike.
Информационные интеллектуальные сети и Семантический Веб
Информационные интеллектуальные сети, Семантический Веб, Веб 3.0, ИИ… Эти слова все чаще стали появляться в нашем обиходе.
Целая эпоха универсального Интернета заканчивается. Она начинает сменяться до того, как мы начинаем это ощущать. На смену едва оформившемуся термину Web 2.0 уже приходит другой, непонятный и загадочный на первый взгляд — Web 3.0, или же просто «Семантический Веб».
О том, что это такое и куда движется наш интернет, я хотел поговорить в этой статье.
Сейчас сеть становится персональной. «Интернет все больше знает о нас». Отчасти, мы сами способствуем этому, раздавая свою персональную информацию в социальных сетях, пользуясь поисковыми системами, будучи авторизованными.
Это означает, что скоро, вводя в строку поиска «Хочу постричься недорого», пользователь получит ответ в виде ближайшей парикмахерской к его местоположению в виде четкого ответа на четкий вопрос – нам не надо будет переходить по 10, 20, 50 ссылкам из поисковой выдачи разных поисковиков, расстраиваясь в очередной раз, что очередная открытая вкладка – это очередной дорогой салон, продвигаемый силами SEO специалистов.
Это касается различных сфер жизни и деятельности человека – начиная от бытовых и заканчивая более глобальными. Например, покупка автомобиля или квартиры, поиск работы и другие.
Более того, поисковая система сможет определить, какой именно автомобиль нужен пользователю на основе информации о том, какими тест-драйвами он больше всего интересуется и какие автомобильные сайты посещает, в каком районе и в каком ценовом диапазоне вы хотите найти квартиру, не голодны ли вы, какую еду предпочитаете и так далее.
С развитием семантического веба после сбора определенных данных о пользователе технологии позволят составить его социально-демографический портрет. Собранные пользовательские данные компьютеры будут понимать уже как портрет личности.
Во многом такой динамике способствует стремление упростить сервисы и сделать упрощенный доступ пользователей к контенту. Ставшая модной в последняя время, авторизация через социальные сети (Вконтакте, Facebook), специальные сервисы (OpenID, OAuth), комментирование через виджеты социальных сетей.
Наши сотовые сети завязывают на себя персональную информацию.
Информация – вот что будет играть решающую роль в будущем интернете!
Продвигаемая крупными игроками рынка технология NFC – предоставляющая возможность совершать покупки, используя мобильный телефон (в том числе, оплачивать проезд в метро, например), все больше связывает наши сим-карты, телефоны, банковские карты, стягивая нашу персональную информацию в единую точку.
Попробуем во всем разобраться, но пока начнем по порядку с малого. Для начала давай-те вместе с вами рассмотрим интеллектуальные информационные системы (ИИС).
Информационные интеллектуальные системы
ИИС (intelligent information system) – это информационная система, которая основана на концепции использования базы знаний для генерации алгоритмов решения задач различных классов в зависимости от конкретных информационных потребностей пользователей.
Особенности и признаки интеллектуальности ИС
Коммуникативные способности ИИС характеризуют способ взаимодействия (интерфейса) конечного пользователя с системой.
Интеллектуальными считаются задачи, связанные с разработкой алгоритмов решения ранее нерешенных задач определенного типа
Интеллект представляет собой универсальный алгоритм, способный разрабатывать алгоритмы решения конкретных задач.
Если в ходе эксплуатации ИС выяснится потребность в модификации одного из двух компонентов программы, то возникнет необходимость ее переписывания. Это объясняется тем, что полным знанием проблемной области обладает только разработчик ИС, а программа служит “недумающим исполнителем” знания разработчика. Этот недостаток устраняются в интеллектуальных информационных системах.
Недостатки ИС и их устранение в ИИС
Классификация ИИС
I класс: системы с интеллектуальным интерфейсом (коммуникативные способности):
II класс: экспертные системы (решение сложных задач):
III класс: самообучающиеся системы (способность к самообучению):
Интеллектуальные БД
Интеллектуальные БД – отличаются от обычных возможностью выборки по запросу информации, которая может явно не храниться, а выводиться из имеющейся БД (например, вывести список товаров, цена которых выше отраслевой).
Естественно-языковой интерфейс предполагает трансляцию естественно-языковых конструкций на машинный уровень представления знаний. При этом осуществляется распознавание и проверка написанных слов по словарям и синтаксическим правилам. Данный интерфейс облегчает обращение к интеллектуальным БД, а также голосовой ввод команд в системах управления.
Гипертекстовые системы предназначены для поиска текстовой информации по ключевым словам в базах.
Системы контекстной помощи – частный случай гипертекстовых и естественно-языковых систем.
Системы когнитивной графики позволяют осуществлять взаимодействие пользователя ИИС с помощью графических образов.
Семантический Веб
HTML-страница описывает как представить информацию визуально в Веб-браузере и трудно поддаётся смысловому анализу компьютерами. Для неё невозможно автоматизировать даже такие тривиальные задачи, как нахождение людей, проектов, программ в Интернете.
Технология Семантический Веб (Semantic Web) позволяет компьютеру интерпретировать информацию в Вебе наравне с людьми, для чего разработана графовая модель описания ресурсов RDF (Resource Description Framework), которая является спецификацией W3C.
С помощью RDF можно создавать любые утверждения о любых ресурсах.
Графовая модель RDF
Утверждения о ресурсах в модели RDF состоят из троек.
Ресурсы и свойства представляются в виде URI, а литералы в формате Unicode. URI позволяет уникальным образом идентифицировать ресурсы в Вебе, а Unicode решает проблему мультиязычности.
RDF схема – это не XML схема
RDF схема описана в утверждениях RDF.
В отличие от XML схемы определяет ресурсы (термины) предметной области, а не ограничивает структуру RDF.
За ресурсами RDF схемы в спецификации W3C закреплена семантика.
Пример RDF схемы, описанной с помощью RDF
Семантика данных – что это такое?
Под семантикой данных будем понимать возможность формального описания смысла передаваемых данных, делая их независимыми от приложений. Это особенно важно в контексте рассматриваемых нами перспектив развития Интернета – побеждает тот, у кого есть данные. Может быть очень много приложений, сайтов, сервисов, но сами по себе они будут очень мало чего значить. Будут выигрывать те, кто сможет предоставлять свой контент в любом, удобном пользователю контенте.
Какие данные можно использовать независимо от сервисов, в которых они используются сегодня: данные из баз данных, XML-документы, приложения в социальных сетях? Нет, потому что их семантика зашита в логике программы и/или неформально в спецификациях. Только данные снабжённые явной семантикой можно сделать действительно независимыми от приложений!
Зачем нужен RDF? Чем плох XML?
Вложенность тегов XML несет только синтаксис, но не несёт никакой семантики. Если мы рассмотрим различные возможные формы представления утверждения “Иван Петров преподает курс информатики” в формате XML:
Приложение, которое использует первый формат, не сможет понять два других формата и наоборот. Поэтому, XML хорош только как формат (синтаксис) для обмена данными, но не как модель описания семантики данных! Это же можно сказать и про другие популярные форматы (JSON, например).
Где в RDF семантика?
На уровне модели RDF семантика появляется благодаря использованию онтологий OWL (Ontology Web Language), благодаря которым компьютер может понимать, как известный ему ресурс или свойство связано с другим, неизвестным ему ресурсом или свойством соответственно и производить другие логические выводы над утверждениями RDF.
Онтологии основываются на математическом аппарате формальной логики (description logic, DL), малое подмножество которого охвачено RDF схемой. DL является вычислимым подмножеством логики первого порядка.
Пример использования семантики
Как проинтерпретирует следующие утверждения приложение, которое понимает только ресурсы словаря foaf?
Оно поймёт, что Pugofka: semantic #Lector является foaf:Person и выведет новое утверждение:
Семантические хранилища
Предполагается, что большие объёмы RDF данных будут храниться в семантических хранилищах и для доступа к ним использоваться язык запросов SPARQL – аналог SQL.
Пример запроса “вывести все проекты, созданные Pugofka” на SPARQL:
В качестве примеров развития направления можно привести создание новых проектов. Так, например, компания «Clark&Parsia» (http://clarkparsia.com/) уже имеет несколько серьезных проектов в сфере Семантического Веба, и на первые числа Апреля назначен старт бета-тестирования RDF-базы данных под названием StarDog.
Уровни Семантического Веба
Эволюционный подход
Семантический Веб это не замещение существующего интернета, а всего лишь его эволюционное развитие. RDF/XML либо внедряется внутрь HTML или доступен по URL.
По этому принципу уже широко используются в WWW RDF-данные с использованием словарей RSS, FOAF (Friend Of A Friend), DOAP (Description Of A Project).
Пример кода FOAF на странице пользователя LiveJournal
Семантический веб – цели, задачи, примеры
Семантический Веб создан не на пустом месте. В него заложены фундаментальные основы:
Технологии, которые задействованы в Семантическом Вебе
Примеры программной поддержки технологии
Направления исследования
Задачи и проблемы Семантического Веба:
Заключение
Семантический Веб – это динамичная, постоянно развивающаяся концепция, а не набор комплексных, работающих систем.
Веб 3.0 – очень многогранное и, на текущий момент, до сих пор не сформированное понятие. Его можно рассматривать с разных точек зрения.
Например, с точки зрения машинной обработки данных – Семантический веб – это идея хранить данные такие образом, чтобы они были определенными и связанны, а также существовала возможность их дальнейшей автоматизированной обработки, интеграции и многократного использования в различных сервисах, приложениях и т.п.
С точки зрения интеллектуальных агентов, то целью будет являться более «машиноориентированный» Веб,
с тем, чтобы можно было наиболее эффективно использовать поисковых пауков (агентов) для поиска и обработки информации.
С точки зрения распределенных баз данных, баз знаний, то концепция Семантического Веба заключается в описании, добавлении дополнительной мета информации, которая позволяет однозначно идентифицировать и сопоставить информацию.
Концепция Веб 3.0 подразумевает наличие целой инфраструктуры.
С точки зрения обслуживания пользователей (потребителей контента) – идея Веб 3.0 заключается в минимизации действий пользователю и выдаче в качестве ответа на его запрос непосредственного ответа на его запрос, который будет учитывать не только его запрос, но и всю его историю, особенности (социально–психологический портрет), вкусы, интересы и многие другие факторы.
С точки зрения качества поиска – реализация поиска не только по ключевым словам или контексту, но и по контенту. Выдача точного ответа на запрос пользователя. Во многом, использование поисковой системы, как экспертной системы.
С точки зрения веб-сервисов Семантический Веб обеспечивает доступ не только к существующим статическим сайтам, но и к динамическим, приложениям, сервисам и другим ресурсам, содержащим полезный контент.