Mediální proroci: Úskalí přílišné důvěry v inteligenci davu

Kolektivní inteligence se dnes, také díky přítomnosti online médií, projevuje doslova na každém kroku. Jejími formami jsou například hnutí open source, projekt ReCaptcha, opravy překladů v online slovnících (typicky Google), metadata, data mining, folksomonie, crowdsourcing a další.

Termín „kolektivní inteligence“ propaguje francouzský profesor Pierre Lévy[1] jako jeden z hlavních faktorů pro úspěch jednotlivce ve stále se rozvíjejícím prostředí. Lévy považuje kolektivní inteligenci za jeden z klíčových hybatelů rozvoje jako takového. Přesto považuji za nutné zaujmout i k metodě kolektivní inteligence přiměřeně kritický postoj. Nad některými důvody se nyní pozastavíme a rozebereme si je detailněji, a to na příkladu problematiky metadat a folksomonie.

Proč kritika kolektivní inteligence?

Předně považuji za důležité objasnit důvody kritického nazírání kolektivní inteligence obecně. Sama o sobě je kolektivní inteligence jistě velmi prospěšnou metodou. Pro řešení otázek, které již své správné odpovědi mají, je pravděpodobně nejrychlejším a nejefektivnějším způsobem získání informací či vědomostí.

Nabízí se však otázka, do jaké míry je kolektivní inteligence prospěšná a správná při řešení otázek, které ještě nikdy předtím zodpovězeny nebyly, a tudíž na ně zatím „neexistuje správná odpověď“. Naše úvaha vychází z jednoduchého předpokladu, že se do řešení nastoleného problému pustí lidé, kteří jsou s ním dostatečně obeznámeni. Například člověk, který nedokáže interpretovat zkratku „DNA“ by podle všeho neměl participovat na projektu čtení genetického kódu.

Problémem je však to, že v jednodušších oblastech lidského počínání se takoví jedinci vyskytují. Jako vhodný ilustrativní příklad nám zde poslouží tak zvaná metadata[2]. Tímto termínem se označují slovní popisy určité skutečnosti, obvykle jedno či dvouslovné.

Problém s metadaty – klíčovými slovy

V prostředí Internetu na problém s metadaty poměrně výrazně narazil celosvětový vyhledávač Google. Ten dříve vycházel z poměrně logické úvahy: Uživatel Internetu si založí svou vlastní webovou stránku (např. Kytky.cz). Tato stránka bude mít nějaký zamýšlený cíl a s ním související obsah (např. encyklopedie květin). Jednotlivé stránky (page) tohoto obsahu (webu) se budou věnovat jasně dané problematice (např. stránka o kopretinách). Protože majitel této stránky chce, aby ji vyhledavač tzv. zaindexoval, a tudíž zpřístupnil i ostatním uživatelům Internetu, vloží na každou takovou samostatnou stránku svého webu metadata, kterými budou především její klíčová slova. Na jejich základě si vyhledávač Google tento web zařadí do správných kategorií a bude jej nabízet ve výsledcích hledání těm, kteří hledají něco souvisejícího s kytkami.

Až potud vše dává smysl a vypadá to jednoduše a srozumitelně. K problémům však začalo docházet prakticky okamžitě, a ty pak narostly do takové šíře, že Googlu téměř znemožnily uvedený koncept nadále udržovat v platnosti.

Prvním úskalím se stal výběr klíčových slov ze strany majitele webu. Ten si mnohdy neuvědomil, že „kytky“ není totéž, co „květiny“ a už vůbec to neevokuje například „letničky“ či „čajové růže“. Jeho výběr klíčových slov, která přiřadil jednotlivým stránkám svého webu, byl tak od počátku nedostatečný, a navíc mířil mimo oblast zájmu-vyhledávání svých potenciálních návštěvníků.

Na druhé straně se objevili majitelé (často i fiktivních, bezobsažných) webů, kteří si uvědomili, jak velkou váhu klade Google právě na klíčová slova, a tak neváhali v zájmu vyšší návštěvnosti svůj web otagovat slovy jako „nejlevnější cokoli“, „nejnovější mobil jen u nás“, či oblíbeným „porno zdarma“.

Google záhy pochopil, že princip hodnocení webových stránek na základě klíčových slov je neudržitelný, neboť velmi snadno umožňuje získat přední pozice ve výsledcích hledání webům, které s daným tématem vůbec nesouvisejí a uživatelé pak samotný Google považují za málo důvěryhodný, neboť jim nabízí nerelevantní odkazy.

Vše vykrystalizovalo v nový termín „Google bomba“. V roce 1999 se na vyhledávací dotaz „more evil than Satan himself“ (horší než sám Satan) zobrazovaly na předních pozicích výsledků vyhledávání odkazy na firmu Microsoft. Častou obětí dalších Google bomb se stal například George W. Bush.

Obrázek Google bomby. [3]

Tato kauza v průběhu následujících let pomohla Google vyhledavači lépe reagovat na skutečné potřeby svých uživatelů a dospěla až do stádia, kdy Google manuálně prověřuje nabízené výsledky hledání a jejich obsah v souvislosti se zadaným klíčovým slovem proto, aby uživatelům mohl nabídnout skutečně ty nejrelevantnější výsledky hledání. Váha klíčových slov přiřazených jednotlivým webům jejich majiteli je přitom kontinuálně snižována.[4]

Problém s uživatelsky řízenou kategorizací - folksonomií[5]

Výše popsaný příklad je v prostředí Internetu typickou ukázkou dvou hlavních nedostatků kolektivní inteligence – nedostatečné disciplinovanosti jednotlivce a záměrného zkreslování informací. Setkáme se s ním i na řadě dalších míst Internetu – několik příkladů za všechny:

Řazení fotografií, receptů, zboží do kategorií (např. Flickr, Vše o vaření, Fler)
Informace o uživateli v jeho uživatelském profilu na sociálních sítích (např. LinkedIn)
Zakládání diskusí, uživatelských skupin (např. eMimino)
Hodnocení uživatelského obsahu (např. příspěvek v diskuzi, online fotosoutěže)

Je jistě správné umožnit veřejnosti, aby participovala na vytváření a kategorizaci obsahu určeného právě pro její potřeby. Pokud se však nebudou aktivity bezpočtu uživatelů centrálně koordinovat a celý záměr nebude mít jasné mantinely, může dojít k řadě problémů:

Nepřesně či nesprávně uvedené kategorie (kytka x rostlina x květiny) – možným řešením je mimořádně kvalitní engine pro vkládání tagů, který je zejm. v českém prostředí schopen hlídat kategorizaci nejen dle synonym, ale také dle skloňování a diakritiky
Duplicita záznamů (růže je kytka i květina) – řešení opět v důsledně řízené kategorizaci
Absence klíčového slova (vonné květiny – některé druhy růží téměř nevoní) – řešením může být systém hlídající „nerozhodnost“ uživatelů v určitém bodě, který prověří administrátor a klíčové slovo určí či smaže sám (to však předpokládá jeho znalost problému!)
Nadbytek klíčových slov (růže je kytka, květina, rostlina, je červená, růžová, bílá, čajová, rudá, vínová…) – opět může být řešením shora řízená kategorizace záznamů s předpokladem nutného zobecnění
Neschopnost přiřadit správnou kategorii (umělé zelené lístečky – kam s nimi?) – opět centrálně řízená kategorizace

Jak na příkladech vidíme, ačkoli je kolektivní inteligence při práci s metadaty a kategorizací dobrou pomocí (zejména z kvantitativního pohledu), je pro dosažení skutečně kvalitního výsledku její centrální řízení a usměrňování nutné.[6]

ZDROJE A POZNÁMKY

[1] Zdroj: Trend, David, ed. Reading Digital Culture. Malden, Mass.: Blackwell, 2001. Převzato z: Lévy, Pierre. „Collective Intelligence“, výtah z „Úvodu“ k Pierru Lévymu, Kolektivní inteligence (Cambridge, MA: Perseus Books, 1997), str. 1-10.

[2] Co jsou metadata viz zdroj: JEDLIČKOVÁ, Petra. Co jsou metadata?. In: [online]. 29. 5. 2001 [cit. 2013-11-07]. Dostupné z: http://web.ff.cuni.cz/~jedlickp/kurzy/ostatni_prednasky/pedagogove2/sld014.htm

[3] Ukázka Google bomby z roku 2008. Zdroj: Google Bomb. In: Wikipedia: the free encyclopedia [online]. San Francisco (CA): Wikimedia Foundation, 2001- [cit. 2013-11-07]. Dostupné z: http://en.wikipedia.org/wiki/File:Google_Bomb_Miserable_Failure.png#file

[4] Nejaktuálnější informace ze začátku října t.r. uvádějí, že Google kompletně převedl vyhledávání do SSL (zabezpečeného) módu, a údaje o klíčových slovech, která uživatelé vyhledávají, tak majitelům webů v oblíbeném nástroji Google Analytics téměř vůbec nepředává. V některých odvětvích je již procento „nezjištěných klíčových slov“ (not provided keywords) vyšší než 50%. O důvodech se zatím pouze spekuluje, objevil se dokonce názor, že to souvisí s požadavkem na blokování aktivit agentur typu NSA a záměru Googlu přivést majitele webu více ke službě Google AdWords, nicméně lze rovněž předpokládat dlouhodobou návaznost na problematiku uživatelsky generovaných klíčových slov obecně. Viz také články online: http://searchenginewatch.com/article/2296351/Goodbye-Keyword-Data-Google-Moves-Entirely-to-Secure-Search, http://socialmediatoday.com/ubersocialmedia/1768276/farewell-google-analytics-keyword-data

[5] Zdroj: Folksonomie. In: Nová média.cz: Web studentů SNM [online]. [cit. 2013-11-07]. Dostupné z: http://novamedia.xf.cz/folksonomy.html

[6] DOCTOROW, Cory. Metacrap: Putting the torch to seven straw-men of the meta-utopia. Well.com [online]. Version 1.3, 26 August 2001 [cit. 2013-11-07]. Dostupné z: http://www.well.com/~doctorow/metacrap.htm

Thursday, November 7, 2013

Úskalí přílišné důvěry v inteligenci davu

Proč kritika kolektivní inteligence?

Problém s metadaty – klíčovými slovy

Problém s uživatelsky řízenou kategorizací - folksonomií[5]

No comments:

Post a Comment

Mediální proroci

Odkazy do cizích memexů

Stalkeři

Smetiště dějin