Thursday, March 26, 2009

Sémantický web

Téma sémantického webu jsem se rozhodla zpracovat, protože jsem o něm ještě do teď neslyšela. Narazila jsem na něj při brouzdání webem a pojem mě zaujal natolik, že jsem se rozhodla dozvědět se víc. Pokusím se vám (i sobě) tady vysvětlit, co to vlastně je, proč je to dobré a jak se to v praxi používá.

Pohybujeme se nyní na internetu a proto si můžeme dovolit použít Wikipedii jako zdroj - ta říká, že se jedná o web, kde jsou informace strukturovány a uloženy podle standardizovaných pravidel, což usnadňuje jejich vyhledání a zpracování. Stručně řečeno, sémantický web je taková síť, kde dokumenty obsahují skryté značky, které poskytují informace o významu obsažených dat. Staví zejména na Resource Description Framework (RDF) a Web Ontology Language (OWL je novější jazyk, který je alternativou v RDF). Nejedná se o náhlý převrat, ale pouze o jakési rozšíření stávajícího webu. Sémantický web představuje reprezentaci dat na WWW.

Většinu obsahu dnešního webu tvoří dokumenty, které sice mohou číst lidé, ale počítačové programy si s nimi neporadí. Rozpoznají sice, která část dokumentu je hlavička, která je odkazem na jiný dokument, ale už nepochopí, že jde o domovskou stránku nemocnice a odkaz vede k životopisu lékaře. Právě tohle by se mělo se sémantickým webem změnit.

Duchovním otcem sémantického webu je Tim Berners-Lee. Ano, je to ten, co vynalezl World Wide Webu a který je ředitelem konsorcia W3C, které dohlíží na pokračující vývoj webu a momentálně pracuje i na specifikacích pro sémantický web. Tim Berners-Lee v květnu roku 2001 upozornil na skutečnost, že současný web je pouze hromada webových stránek, která neustále roste a ve které je stále složitější nalézt relevantní informace stávajícím způsobem, tedy pomocí vyhledávacích algoritmů. V minulosti byly ve snaze vyrovnat se s přílivem informací nejprve zavedeny rozcestníky, později vyhledávače a nakonec portály. Jejich úkolem je zjednodušit člověku orientaci v moři dokumentů a najít právě tu kapičku, kterou uživatel hledá. Jenže poslední dobou už ani elektroničtí pomocníci člověka nezvládají tento úkol. Existuje však i další problém: Nyní jsou jednotlivé informace na webu formulovány rozdílně, takže není možné jejich přímé porovnání. Výsledkem je, že informace na internetu není snadné shrnout a jednotně prezentovat. Na internetu najdete sice téměř všechno, ale někdy to dá hodně práce.

Základním krokem k vytvoření sémantického webu je konceptualizace dat dostupných na internetu, jejíž klíčovým nástrojem jsou ontologie, aneb formalizované reprezentace znalostí určené k jejich sdílení a znovupoužití. Jak tedy změníme web zaměřený na „dokumenty" na web zaměřený na obsah? Možností je změnit původní informaci takovým způsobem, aby byla strukturována sémanticky. Ontologie by měla zaručit organizaci a provázanost informací umožňující jejich zpracování a pochopení“ nejen člověkem, ale i počítačem Ontologie jsou často doménového (oborového) zaměření a bývají konstruovány jako pojmové (konceptuální) hierarchie nebo sítě. Výchozím zdrojem pro budování ontologií je wordnet, síť slov spojených sémantickými vztahy.

Sémantický web je dále založen na standardizovaném popisu webových zdrojů (vše, dosažitelné pomocí WWW, tedy textové dokumenty, obrázky, videosekvence, zvukové soubory apod.). Každý zdroj by byl vybaven stejnými charakteristikami údaji (autor, typ zdroje, klíčová slova atd.), což by umožnilo uživatelům internetu pracovat se sítí WWW jako s relační databází. Významným důsledkem by například byla velmi vysoká přesnost odpovědi na vyhledávací dotaz, což znamená, že by byl uživateli při vyhledávání určité informace vrácen seznam všech zdrojů, které se této informace týkají, a žádný zdroj navíc.

Údaje o zdrojích, tzv. metadata, zachycují obsah, kontext a strukturu dat, která popisují. Síťová metadata, jsou nejčastěji zapisována prostřednictvím XML. Pro vyjádření vztahu mezi jednotlivými metadatovými prvky a schématy byl navržen standard RDF a skutečné zachycení sémantiky popisovaných dat je zajištěno prostřednictvím klasifikačních schémat a řízených slovníků. RDF by se tedy dal popsat jako obecný rámec pro popis, výměnu a znovupoužití metadat. Jedná se tedy o další úroveň metadat, čímž se nám situace trošku komplikuje. Data prezentovaná na internetu by ale tímto způsobem měla mít přesně definovaný význam a dovolovat do značné míry automatizované zpracování, které by se mělo realizovat pomocí softwarových agentů.

Možná vás při čtení napadlo spojení sémantického webu a webu 2.0. Oba pojmy mají mnoho společného a vhodně se doplňují - web 2.0 může představovat jakousi platformu pro podání obsahu, což je vlastně sémantický web. Možná jste taky slyšeli webu 3.0. Tento pojem použil poprvé počátkem roku 2006 Jeffrey Zeldman na svém blogu, když kritizoval Web 2.0 a jeho technologie. V těchto souvislostech se začalo hovořit o databázové transformaci webu, o využití idejí sémantické webu, o zapojení třetí dimenze do navigace apod. Jednoduše: Web 2.0 + sémantický web = Web 3.0

Až po sem vše vypadá přímo skvěle, čeká nás chytrý a přehledný internet, ale sami víte, že nic není dokonalé. Podle názoru Viléma Málka poskytne Sémantický web dokonalou kontrolu nad informačním obsahem internetu - nejenže bude kdokoli moci kohokoli jednoduše odříznout od potřebných dat, ale navíc bude možné i ten nejmenší informační drobek snadno vysledovat a využít. Jiný autor se domnívá, že sémantický web je vážnou hrozbou, avšak nikoli pro uživatele, nýbrž pro autory, provozovatele a zejména majitele webových stránek. Sémantický web, a web budoucnosti obecně, již nebude reálně strukturován na webová místa a stránky, nesoucí pečeť svých majitelů a realizující jejich obchodní zájmy. Místo toho bude gigantickou databází informací, ze kterých si uživatelé vyberou vždy jen to, co budou právě potřebovat. Toto v současnosti díky RSS a podobným nástrojům již funguje, ale pouze v malé míře. Zároveň autorům a majitelům současných stránek vzniká vážný problém: jejich současné obchodní modely přestanou platit.

Otázkou zůstává, kdy se sémantický web stane realitou a pro koho bude hrozbou – zda pro uživatele nebo autory a majitele stránek. Co myslíte vy?

1 comment:

  1. Pěkný příspěvek!
    Zajímavé je, že se nikde moc nediskutuje o tom, že SW by pro uživatele vlastně znamenal víc práce, protože by museli dodávat k obsahům i metadata, která by určovala "o čem stránky jsou". Počítač to stejně nepozná, pokud mu to člověk neřekne ("překladač" z přirozeného jazyka do něčeho, čemu by počítač rozuměl, je zatím v říši snů). Autoři s tím pak samozřejmě můžou manipulovat, tj. deklarovat obsah jako něco jiného. Otázkou tedy je, kdo je za metadata "zodpovědný".
    Zárodkem SW je nejspíš folksonomie, tj. kolektivní uživatelská taxonomie, "tagování" např. v Delicious. Zajímavý je taky koncept "crowdsourcing", např. projekt Luise von Ahna, který nechává lidi pod záminkou, že hrají hru, anotovat obrázky na Internetu.

    ReplyDelete