Semantic MediaWiki (SMW) — это расширение MediaWiki (вики-движка, используемого Фондом Викимедиа для своих проектов, таких как Википедия), которое помогает искать, организовывать, маркировать, просматривать содержимое вики, а также производить вычисления над ним. В то время, как традиционные вики содержат только текст, который компьютер не может ни понять, ни обработать, SMW добавляет семантические аннотации, что позволяет вики функционировать, используя преимущества баз данных, превращая MediaWiki в полноценную семантическую вики. Semantic MediaWiki была анонсирована в 2005 году, и в настоящее время имеет более десяти разработчиков и используется на сотнях сайтов. Также на сегодняшний день реализовано большое количество семантических расширений, призванных расширить возможности по редактированию и представлению хранящиеся в SMW данных. Термин «Semantic MediaWiki» иногда используется для обозначения целого семейства расширений.
Разработка Semantic MediaWiki частично поддержана проектами Рамочных программ Европейского союза, SEKT и ACTIVE, а также проектом Extension «Halo».
An Introduction to the Semantic Web
Contents
- 1 Почему Semantic MediaWiki?
- 2 Где SMW может помочь?
- 3 Кто использует Semantic MediaWiki?
- 4 Дополнительная информация
- 5 Контактная информация и поддержка пользователей
Почему Semantic MediaWiki? [ edit ]
Технология вики стала отличным помощником в накоплении и совместном использовании знаний в сообществах. Эти сведения содержатся в текстах и мультимедийных файлах и доступны для читателей-людей. Вики-системы очень удобны для хранения и извлечения определенных фактов, но они менее полезны для хранения структурированной информации и организации доступа к ней посредством агрегирования данных и выполнения запросов. По мере роста вики, в ней появляются проблемы, связанные с слабо развитой автоматической обработкой данных на страницах:
- несогласованность данных на разных страницах,
- трудоемкость повторного использования данных,
- проблемы в запросе списков страниц, объединенных общими свойствами,
- отсутствие развитого поиска.
Для простого примера рассмотрим следующий вопрос:
«Какие сто самых больших городов в мире, где мэр — женщина?»
В Википедии имеются все данные для предоставления ответа: в ней есть статьи обо всех больших городах, и их мэрах. В статьях о мэрах есть информация об их поле. Однако, на поставленный вопрос почти невозможно ответить до тех пор, пока не прочтешь все статьи о больших городах. И даже если ответ найден, он может быть верен совсем не долго.
Компьютеры могут содержать большой набор данных, но пока они не готовы поддержать нас в процессе задавания вопросов к вики: даже сложные программы автоматического анализа текста до сих пор не могут прочитать и до конца «понять» тексты на естественных языках. Поиск по ключевым словам в вики также не поможет.
Semantic MediaWiki дает возможность добавлять в вики структурированные, пригодные для машинной обработки данные, что позволяет в том числе и отвечать на вопросы.
HTML5 #3 Валидация, семантика и доступность (Validation, Semantic, Accessibility)
Где SMW может помочь? [ edit ]
Semantic MediaWiki содержит некоторые дополнительные элементы разметки вики-текста, которые позволяют пользователям добавить на вики-страницы т.н. «семантические аннотации». Задуманные как средство организации данных, семантические аннотации позволяют упростить структуру вики-сайта, помогают пользователям найти больше информации за меньшее время, а также повысить качество вики-материалов и их непротиворечивость. Приведем некоторые достоинства использования SMW:
- Автоматически генерируемые списки. Вики-сайты имеет тенденцию содержать в себе много списков, где собраны ссылки на различные вики-страницы. Википедия содержит тысячи списков, таких как «Список умерших в 1995 году». Такой список предрасположен к ошибкам, пока не будет упорядочен вручную. Более того, число потенциально интересных списков очень велико, и невозможно обеспечить всем им допустимое качество. В SMW списки обрабатываются автоматически, как, например, этот. Они всегда содержат самую актуальную информацию и легко могут изменяться в зависимости от требований к параметрам представления или состава данных в списке.
- Визуальное отображение информации. Разнообразие вариантов вывода информации осуществляется дополнительными расширениями, такими как Semantic Result Formats и Semantic Maps. Эти расширения делают возможным отображать информацию в календарях, сроках доставки, графиках и картах, среди других, обеспечивающих намного более наглядное и интуитивное представление, чем простые списки.
- Улучшенная структура данных. Категории в MediaWiki используются как основной инструмент структурирования; зачастую, однако, можно наблюдать злоупотребление категориями. Наряду с правильным использованием категорий (см. например, статью C++, которая включена в категорию «Языки программирования»), встречаются случаи, когда вместо категоризации хочется просто разметить статью каким-либо значением. Взглянем, например, на категорию в Википедии, названную «Умершие в 1620-е годы» — разве не лучше привязывать к статьям о людях атрибут «Время смерти» и формировать категории динамически? Работа с использованием SMW строится ровно по такому принципу — страницы снабжаются аннотациями, обозначающими даты, числовые и строковые атрибуты, а нужные списки формируются автоматически.
- Удобство ввода структурированной информации. Семантические аннотации требуют изучения новых элементов разметки, однако и этого можно избежать, если использовать шаблоны, давно известные вики-пользователям (в Википедии шаблоны используются, например, для создания информационных таблиц, таких как таблица информации о птице в статье Дронты). Процесс разметки страниц может быть даже проще, чем процесс использования шаблонов в MediaWiki! Расширение Semantic Forms позволяет администраторам создавать формы для добавления и редактирования данных, что существенно снижает порог вхождения для пользователей.
- Поиск информации. Пользователи могут искать определенную информацию, создавая свои собственные запросы, используя дополнения типа Halo и Semantic Drilldown.
- Согласованность данных на разных языках. Большинство статей в Википедии связаны с аналогичными статьями на других языках, то же самое может быть сделано и для семантических аннотаций SMW. Эта функциональность может быть использована для того, чтобы обнаруживать возможные несоответствия, которые могут быть устранены редакторами. Например, население Эдинбурга на момент написания этих строк отличается в английской, немецкой, и французской Википедиях. Если же данные сохранены в виде, пригодном для машинной обработки (семантически), вы можете, например, запросить население Пекина из китайской Википедии не зная ни единого слова по-китайски.
- Внешнее повторное использование. Данные, однажды созданные в SMW, могут легко передаваться в форматах CSV, JSON и RDF наружу. Это дает возможность для вики быть источником данных для внешних приложений — роль, которую обычно исполняют реляционные базы данных. А с использованием дополнений External Data и Semantic Result Formats, несколько семантических вики могут использовать данные друг друга, устраняя необходимость в дублировании и ручной синхронизации. Сегодня некоторые настольные приложения используют информацию из Википедии. Например, аудиоплеер Amarok отображает статьи об исполнителе во время воспроизведения музыкальной композиции. Однако такое использование носит ограниченный характер. Программа способна только показать текст статьи Википедии в некотором контексте, но не может проделать дополнительных шагов (например, найти все альбомы исполнителя). SWM позволяет в полной мере воспользоваться информацией хранящейся в Википедии. А в силу того, что семантические данные могут быть опубликованы под бесплатной лицензией, то они могут даже поставляться вместе с приложениями, что позволит сэкономить пропускную способность и время загрузки данных.
- Применение в семантическом вебе. Расширение Triple Store Connector позволяет вам соединить вашу вики с RDF-хранилищем и использовать SPARQL для запросов.
- Интеграция данных. Данные, содержащиеся в вашей SMW-вики, не обязаны быть изолированными. Дополнения Data Import, Data Transfer и External Data дают вам возможность использовать данные извне — веб-сервисов, ресурсов Linked Data, старых систем. Таким образом, система, построенная на SMW, может исполнять роль информационного хаба, собирающего и синхронизирующего данные отовсюду.
Кто использует Semantic MediaWiki? [ edit ]
Начавшаяся как академический исследовательский проект, Semantic MediaWiki прошла долгий путь. Сейчас она активно используется в сотнях городах, по всему миру, установлена во многих организациях, включая компании Fortune 500, используется в биомедицинских проектах, правительственных агентствах. Вы можете посмотреть на список сайтов, которые используют SMW здесь и здесь. Следует отметить, что оба списка содержат только открытые для всеобщего обозрения сайты, несмотря на то, что возможно половина или более сайтов, которые использует Semantic MediaWiki, являются частными и предназначены для внутреннего использования организациями.
Существует большое количество консалтинговых компаний, которые используют SMW как часть их решений, включая FZI, gesinn.it, Sémantiki.fr, ontoprise и WikiWorks.
По крайней мере, два веб-сайта в настоящее время предлагают хостинг SMW и некоторых расширений: Wikia и Referata.
Вы можете прочитать о положительном опыте использования SMW среди организаций и отдельных людей на странице рекомендаций.
Дополнительная информация [ edit ]
На этом сайте есть огромное количество информации по настройке и работе с Semantic MediaWiki. Руководство администратора содержит информацию о загрузке, установке, а также поиске и устранении неисправностей SMW; а также информацию о различных дополнениях, которые могут быть установлены совместно с SMW. В Руководстве пользователя вы найдете информацию о том, как назначать страница семантические свойства, как выполнять запросы, просматривать данные и т.п. А на странице часто задаваемых вопросов можно найти найти ответы на популярные вопросы как технического, так и иного характера.
Контактная информация и поддержка пользователей [ edit ]
Для того, чтобы связаться с Проектом SMW, смотрите Страницу контактов. Для комментариев и вопросов есть пользовательский список рассылки, на который вы можете подписаться, а также IRC-канал #semanticmediawiki. Смотрите страницу поддержки для получения дополнительной дальнейшей информации о поддержке для SMW.
Ошибки и предложения нового функционала для SMW можно отсылать на MediaZilla, смотрите документацию на странице reporting bugs.
Источник: www.semantic-mediawiki.org
Semantic MDM — система централизованного управления корпоративной справочной информацией (НСИ)
Нормативно-справочная информация (НСИ) предприятия (мастер-данные) — условно постоянная информация не транзакционного характера, которая не претерпевает существенных изменений в процессе повседневной деятельности: информационно-технические справочники и классификаторы, каталоги оборудования, инструментов, материалов, комплектующие изделия.
Система управления мастер-данными (Master Data Management — MDM) консолидирует корпоративную НСИ, унифицирует работу с этими данными, стандартизирует форматы их представления и обмена.
В промышленности MDM система работает в связке с PLM и ERP, обеспечивая вспомогательные данные для всех процессов планирования, проектирования, производства и снабжения.
В состав программного комплекса Semantic MDM входят следующие модули:
- основной клиентский модуль — базовый пользовательский инструмент и интерфейс для работы с корпоративными мастер-данными
- конфигуратор объектной модели данных — модуль для создания новых и модифицикации уже существующих справочников и классификаторов
- управление заявками пользователей — модуль обработки заявок на изменение данных от пользователей с применением специальных алгоритмов для эффективной работы
- управление качеством мастер-данных — модуль проверки и исправления данных на этапе ввода, нормализации хранения, поиска и слияния дублей
- модуль импорта и репликации данных — модуль для связывания и синхронизации эталонных данных в MDM с рабочими данными в других информационных системах предприятия
- управление правами пользователей — модуль упраления доступом к данным для всех пользователей системы, обеспечивает информационную безопасность предприятия
Semantic MDM уже содержит в себе более двух миллионов объектов с промышленным контентом: материалы и сортаменты, стандартные и комплектующие изделия, ГОСТы, оборудование, инструменты, оснастку, промышленные классификаторы. К информационным объектам НСИ могут подключаться растровые и векторные изображения, а также документы различных форматов, включая чертежи и 3D-модели.
Информационные интеллектуальные сети и Семантический Веб
Информационные интеллектуальные сети, Семантический Веб, Веб 3.0, ИИ… Эти слова все чаще стали появляться в нашем обиходе.
Целая эпоха универсального Интернета заканчивается. Она начинает сменяться до того, как мы начинаем это ощущать. На смену едва оформившемуся термину Web 2.0 уже приходит другой, непонятный и загадочный на первый взгляд — Web 3.0, или же просто «Семантический Веб».
О том, что это такое и куда движется наш интернет, я хотел поговорить в этой статье.
Сейчас сеть становится персональной. «Интернет все больше знает о нас». Отчасти, мы сами способствуем этому, раздавая свою персональную информацию в социальных сетях, пользуясь поисковыми системами, будучи авторизованными.
Это означает, что скоро, вводя в строку поиска «Хочу постричься недорого», пользователь получит ответ в виде ближайшей парикмахерской к его местоположению в виде четкого ответа на четкий вопрос – нам не надо будет переходить по 10, 20, 50 ссылкам из поисковой выдачи разных поисковиков, расстраиваясь в очередной раз, что очередная открытая вкладка – это очередной дорогой салон, продвигаемый силами SEO специалистов.
Это касается различных сфер жизни и деятельности человека – начиная от бытовых и заканчивая более глобальными. Например, покупка автомобиля или квартиры, поиск работы и другие.
Более того, поисковая система сможет определить, какой именно автомобиль нужен пользователю на основе информации о том, какими тест-драйвами он больше всего интересуется и какие автомобильные сайты посещает, в каком районе и в каком ценовом диапазоне вы хотите найти квартиру, не голодны ли вы, какую еду предпочитаете и так далее.
С развитием семантического веба после сбора определенных данных о пользователе технологии позволят составить его социально-демографический портрет. Собранные пользовательские данные компьютеры будут понимать уже как портрет личности.
Во многом такой динамике способствует стремление упростить сервисы и сделать упрощенный доступ пользователей к контенту. Ставшая модной в последняя время, авторизация через социальные сети (Вконтакте, Facebook), специальные сервисы (OpenID, OAuth), комментирование через виджеты социальных сетей.
Наши сотовые сети завязывают на себя персональную информацию.
Информация – вот что будет играть решающую роль в будущем интернете!
Продвигаемая крупными игроками рынка технология NFC – предоставляющая возможность совершать покупки, используя мобильный телефон (в том числе, оплачивать проезд в метро, например), все больше связывает наши сим-карты, телефоны, банковские карты, стягивая нашу персональную информацию в единую точку.
Попробуем во всем разобраться, но пока начнем по порядку с малого. Для начала давай-те вместе с вами рассмотрим интеллектуальные информационные системы (ИИС).
Информационные интеллектуальные системы
ИИС (intelligent information system) – это информационная система, которая основана на концепции использования базы знаний для генерации алгоритмов решения задач различных классов в зависимости от конкретных информационных потребностей пользователей.
Особенности и признаки интеллектуальности ИС
- воспринимает вводимые пользователем информационные запросы и необходимые исходные данные;
- обрабатывает введенные и хранимые в системе данные в соответствии с известным алгоритмом и формирует требуемую выходную информацию.
Коммуникативные способности ИИС характеризуют способ взаимодействия (интерфейса) конечного пользователя с системой.
Интеллектуальными считаются задачи, связанные с разработкой алгоритмов решения ранее нерешенных задач определенного типа
Интеллект представляет собой универсальный алгоритм, способный разрабатывать алгоритмы решения конкретных задач.
Если в ходе эксплуатации ИС выяснится потребность в модификации одного из двух компонентов программы, то возникнет необходимость ее переписывания. Это объясняется тем, что полным знанием проблемной области обладает только разработчик ИС, а программа служит “недумающим исполнителем” знания разработчика. Этот недостаток устраняются в интеллектуальных информационных системах.
Недостатки ИС и их устранение в ИИС
- Слабая адаптируемость к информационным потребностям пользователя.
- Невозможность решать плохо формализуемые задачи.
- развитые коммуникативные способности;
- умение решать сложные, плохо формализуемые задачи (характеризуются наполовину качественным и количественным описанием, а хорошо формализуемые задачи – полностью количественным описанием);
- способность к развитию и самообучению.
Классификация ИИС
I класс: системы с интеллектуальным интерфейсом (коммуникативные способности):
- Интеллектуальные БД;
- Естественно-языковой интерфейс;
- Гипертекстовые системы;
- Контекстные системы;
- Когнитивная графика.
II класс: экспертные системы (решение сложных задач):
- Классифицирующие системы;
- Доопределяющие системы;
- Трансформирующие системы;
- Многоагентные системы.
III класс: самообучающиеся системы (способность к самообучению):
- Индуктивные системы;
- Нейронные сети;
- Системы, основанные на прецедентах;
- Информационные хранилища.
Интеллектуальные БД
Интеллектуальные БД – отличаются от обычных возможностью выборки по запросу информации, которая может явно не храниться, а выводиться из имеющейся БД (например, вывести список товаров, цена которых выше отраслевой).
Естественно-языковой интерфейс предполагает трансляцию естественно-языковых конструкций на машинный уровень представления знаний. При этом осуществляется распознавание и проверка написанных слов по словарям и синтаксическим правилам. Данный интерфейс облегчает обращение к интеллектуальным БД, а также голосовой ввод команд в системах управления.
Гипертекстовые системы предназначены для поиска текстовой информации по ключевым словам в базах.
Системы контекстной помощи – частный случай гипертекстовых и естественно-языковых систем.
Системы когнитивной графики позволяют осуществлять взаимодействие пользователя ИИС с помощью графических образов.
Семантический Веб
HTML-страница описывает как представить информацию визуально в Веб-браузере и трудно поддаётся смысловому анализу компьютерами. Для неё невозможно автоматизировать даже такие тривиальные задачи, как нахождение людей, проектов, программ в Интернете.
Технология Семантический Веб (Semantic Web) позволяет компьютеру интерпретировать информацию в Вебе наравне с людьми, для чего разработана графовая модель описания ресурсов RDF (Resource Description Framework), которая является спецификацией W3C.
С помощью RDF можно создавать любые утверждения о любых ресурсах.
Графовая модель RDF
Утверждения о ресурсах в модели RDF состоят из троек.
Ресурсы и свойства представляются в виде URI, а литералы в формате Unicode. URI позволяет уникальным образом идентифицировать ресурсы в Вебе, а Unicode решает проблему мультиязычности.
RDF схема – это не XML схема
RDF схема описана в утверждениях RDF.
В отличие от XML схемы определяет ресурсы (термины) предметной области, а не ограничивает структуру RDF.
За ресурсами RDF схемы в спецификации W3C закреплена семантика.
Пример RDF схемы, описанной с помощью RDF
Семантика данных – что это такое?
Под семантикой данных будем понимать возможность формального описания смысла передаваемых данных, делая их независимыми от приложений. Это особенно важно в контексте рассматриваемых нами перспектив развития Интернета – побеждает тот, у кого есть данные. Может быть очень много приложений, сайтов, сервисов, но сами по себе они будут очень мало чего значить. Будут выигрывать те, кто сможет предоставлять свой контент в любом, удобном пользователю контенте.
Какие данные можно использовать независимо от сервисов, в которых они используются сегодня: данные из баз данных, XML-документы, приложения в социальных сетях? Нет, потому что их семантика зашита в логике программы и/или неформально в спецификациях. Только данные снабжённые явной семантикой можно сделать действительно независимыми от приложений!
Зачем нужен RDF? Чем плох XML?
Вложенность тегов XML несет только синтаксис, но не несёт никакой семантики. Если мы рассмотрим различные возможные формы представления утверждения “Иван Петров преподает курс информатики” в формате XML:
Иван Петров Информатика
Иван Петров Информатика
Приложение, которое использует первый формат, не сможет понять два других формата и наоборот. Поэтому, XML хорош только как формат (синтаксис) для обмена данными, но не как модель описания семантики данных! Это же можно сказать и про другие популярные форматы (JSON, например).
Где в RDF семантика?
На уровне модели RDF семантика появляется благодаря использованию онтологий OWL (Ontology Web Language), благодаря которым компьютер может понимать, как известный ему ресурс или свойство связано с другим, неизвестным ему ресурсом или свойством соответственно и производить другие логические выводы над утверждениями RDF.
Онтологии основываются на математическом аппарате формальной логики (description logic, DL), малое подмножество которого охвачено RDF схемой. DL является вычислимым подмножеством логики первого порядка.
Пример использования семантики
Как проинтерпретирует следующие утверждения приложение, которое понимает только ресурсы словаря foaf?
“Виталий Юшкевич”.
Оно поймёт, что Pugofka: semantic #Lector является foaf:Person и выведет новое утверждение:
“Виталий Юшкевич”
Семантические хранилища
Предполагается, что большие объёмы RDF данных будут храниться в семантических хранилищах и для доступа к ним использоваться язык запросов SPARQL – аналог SQL.
Пример запроса “вывести все проекты, созданные Pugofka” на SPARQL:
PREFIX dc: PREFIX foaf: SELECT ?title WHERE
В качестве примеров развития направления можно привести создание новых проектов. Так, например, компания «Clark
Семантический Веб создан не на пустом месте. В него заложены фундаментальные основы:
- графовая модель представления полуструктурированных данных (OEM, Lore);
- формальная логика (логика первого порядка, базы знаний, фреймы);
- архитектура WWW (URI, Unicode, XML, HTTP);
- криптография с открытым ключом.
Технологии, которые задействованы в Семантическом Вебе
- семантический поиск;
- вопросно-ответные системы;
- агенты;
- объединение знаний (интеграция баз данных);
- всепроникающие вычисления (ubiquitous/pervasive computing)
Примеры программной поддержки технологии
- библиотеки для интерпретации стека языков RDF для всех популярных языков программирования (Jena, Redland, RDFLib);
- редакторы онтологий (Protégé);
- системы рассуждений над онтологиями (Racer, KAON, FACT);
- семантические хранилища (Sesame, Kowari, YARS);
- семантические браузеры (Simile, Piggy Bank, Gnowsis, Haystack);
- поисковики семантических данных (Swoogle);
- конверторы из разных форматов представления данных в/из RDF/XML (Aperture, RDFizers, D2R);
- прикладные программы (Bibster, FOAF Explorer);
- Stardog, the RDF database;
- Примеры
- datagov.clarkparsia.com
- nasa.clarkparsia.com
- pelorus.clarkparsia.com
- Freebase.com
- gmpg.org/xfn
- www.origo-client.com/demo/client
- code.google.com/intl/ru/apis/opensocial
- dbpedia.org
Направления исследования
- Foundations
- Knowledge Engineering and Ontology Engineering
- Knowledge Representation and Reasoning
- Information Management
- Basic Web Information technologies
- Agents
- Natural Language Processing
- Infrastructure
- Resource Description Framework and RDFSchema
- Languages
- Ontologies
- Rules and Logic
- Proof
- Security and trust and privacy
- Applications
- Natural language processing and human language technologies
- Social impact of the Semantic Web
- Social networks and Semantic Web
- Peer-to-peer and Semantic Web
- Agents and Senatic Web
- Semantic Grid
- Outreach to industry
- Benchmarking and scalability
Задачи и проблемы Семантического Веба:
- индексация и поиск информации;
- разработка и поддержка метаданных;
- разработка и поддержка методов аннотирования;
- представление Web в виде большой, интероперабельной базы данных;
- организация машинной добычи данных;
- обнаружение (discovery) и предоставление веб-ориентированных сервисов;
- исследования в области интеллектуальных программных агентов.
Заключение
Семантический Веб – это динамичная, постоянно развивающаяся концепция, а не набор комплексных, работающих систем.
Веб 3.0 – очень многогранное и, на текущий момент, до сих пор не сформированное понятие. Его можно рассматривать с разных точек зрения.
Например, с точки зрения машинной обработки данных – Семантический веб – это идея хранить данные такие образом, чтобы они были определенными и связанны, а также существовала возможность их дальнейшей автоматизированной обработки, интеграции и многократного использования в различных сервисах, приложениях и т.п.
С точки зрения интеллектуальных агентов, то целью будет являться более «машиноориентированный» Веб,
с тем, чтобы можно было наиболее эффективно использовать поисковых пауков (агентов) для поиска и обработки информации.
С точки зрения распределенных баз данных, баз знаний, то концепция Семантического Веба заключается в описании, добавлении дополнительной мета информации, которая позволяет однозначно идентифицировать и сопоставить информацию.
Концепция Веб 3.0 подразумевает наличие целой инфраструктуры.
С точки зрения обслуживания пользователей (потребителей контента) – идея Веб 3.0 заключается в минимизации действий пользователю и выдаче в качестве ответа на его запрос непосредственного ответа на его запрос, который будет учитывать не только его запрос, но и всю его историю, особенности (социально–психологический портрет), вкусы, интересы и многие другие факторы.
С точки зрения качества поиска – реализация поиска не только по ключевым словам или контексту, но и по контенту. Выдача точного ответа на запрос пользователя. Во многом, использование поисковой системы, как экспертной системы.
С точки зрения веб-сервисов Семантический Веб обеспечивает доступ не только к существующим статическим сайтам, но и к динамическим, приложениям, сервисам и другим ресурсам, содержащим полезный контент.
Источник: habr.com