Wednesday, November 20, 2013

Readability of Wikipedia / Čitelnost Wikipedie

Tato práce se zabývá tématem Wikipedie a její čitelnosti. Zdrojem byl článek Readability of Wikipedia, publikovaný v First Monday ze 3. září 2012. Wikipedie je obrovským internetovým zdrojem informací, ne každý ovšem může těmto informacím rozumět. Níže zmínění autoři aplikovali Flesch Reading Ease Test na všechny dostupné články, které prošly selekcí. Výsledek není příznivý, 75 % článků dosahuje nižší úroveň čitelnosti, než je její požadovaná hodnota.
Wikipedie je internetová, volně přístupná encyklopedie, která má přes 270 jazykových mutací. Dnes Wikipedie obsahuje více než 3,5 milionů článků. Přispěvovatelé jsou dobrovolníci z celého světa. 
Spoluzakladatel Jimmy Walker o Wikipedii říká: „Představa světa, ve kterém má každý člověk na planetě volný přístup k lidskému vědění. To děláme.“ Autoři článků ale předpokládají, že informace občas nejsou přístupny všem, protože jejich obsahy jsou příliš těžko pochopitelné příjemcům. A tak kvalita informací samozřejmě vyvolává mnoho diskuzí a zvětšilo se znepokojení ohledně její čitelnosti.
Čitelnost lze charakterizovat jako snadnost, s níž může čtenář pochopit zprávu autora. K hodnocení čitelnosti byl použit Flesch Reading Ease Test. Tento test předpokládá, že se hůře čtou delší věty, které jsou v níže uvedeném algoritmu označeny jako SL. Je to zastoupeno průměrným počtem slov ve větě. Další hypotézou je horší čitelnost dlouhých slov, která jsou označeny zkratkou WL. Zde se jedná o průměrný počet slabik ve slově. Flesch Reading Ease Test je formulován takto:
RE = 206.835 — (1.015 X SL) — (84.6 X WL)

Níže je uvedena tabulka možných výsledků.
Reading Ease Score s výsledky
Reading Ease Score
Výsledek
90–100
velmi lehké
80–90
lehké
70–80
poměrně lehké
60–70
standardní
50–60
docela obtížné
30–50
obtížné
0–30
velmi obtížné

Z této tabulky autoři vyvodili, že text určený široké veřejnosti by se měl pohybovat mezi body 60-70 (standardní). Ale například pro veřejnost, která by velmi angličtinu neovládala, by se bodové ohodnocení mělo pohybovat nad 80 (lehké, velmi lehké).

Protože byla uznána špatná čitelnost Wikipedie, v březnu 2011 byla zavedena Simple English Wikipedie,. Tyto stránky jsou psané jednoduchou angličtinou a jsou určeny všem, kterým by klasická Wikipedie mohla dělat problémy. Bohužel, čím více tam přibývalo článků, tím horší byla čitelnost (v roce 2003 se čtecí skóre pohybovalo kolem 80 a v roce 2006 kleslo na 70).

TESTOVÁNÍ
Testování bylo provedeno na všech vhodných článcích. Vhodných proto, že byla před testováním provedena selekce. Vyfiltrovány musely být obsahy, které neobsahovaly celé věty (nadpisy, tabulky, URL). Také byly odstraněny grafické, zvukové či PDF soubory.
Závěrem bylo testováno na English Wikipedia  88 % a na Simple English Wikipedia 85 % článků, které odpovídaly požadavkům.

VÝSLEDKY
Níže Vám představím výsledky u obou verzí English Wikipedia a Simple English Wikipedia.

U první verze English Wikipedia bylo filtrováno 2 955 210 článků. Na obrázku č. 1 však můžete vidět, že jaký podíl článků obsahuje 5 a méně vět.


Obrázek č. 1

Studie tvrdí, že krátké články nejsou reprezentativními vzorky, a tak byly z analýzy vyloučeny všechny články s 5 a méně větami. Počet zbývajících článků byl 1 710 752.
Na obrázku č. 2 můžete vidět rozložení skóre čitelnosti u článků s více než pěti větami. Průměrné bodové ohodnocení bylo 51,18, celkově 73,5 % všech článků bodovalo pod doporučený cíl 60 (standardní) a 45 % všech článků bylo dokonce ohodnoceno jako obtížné nebo horší (bodové ohodnocení pod 50).


Obrázek č. 2

U druhé verze Simple English Wikipedia bylo dostupných 57 422 článků. Potvrdilo se, že čitelnost je lepší u článků s více než pěti větami. Na základě zjištění malé reprezentativnosti článků s 5 a méně větami byly články analyzovány a zjistilo se, že dokonce více než 60 % všech obsahů obsahuje 5 a méně vět. To dokazuje obrázek č. 3.


Obrázek č. 3

Na následujícím obrázku č. 4 autoři uvádí rozložení skóre čitelnosti u verze Simple English Wikipedia. Průměrné skóre je 61,69. 94,7 % všech článků dosáhlo pod hranici 80 (lehké) a 42,3 % nedosáhlo ani skóre 60 (standardní).


Obrázek č. 4

SROVNÁNÍ
Pokud bychom chtěli porovnat čitelnost obou verzí Wikipedií, bude to těžký úkol, protože každá z nich obsahuje jiný a velmi rozdílný počet článků. Autoři si tedy poradili tak, že vyselektovali články se stejnými titulky, jejichž počet byl 9603. Poté mohly být obě verze porovnány a výsledky jsou následující:
Snížil se počet zkoumaných článků a změnilo se i skóre čitelnosti. U verze English Wikipedia bylo bodové ohodnocení 49,27 a verze Simple English Wikipedia byla 61,46.

DISKUZE A ZÁVĚRY
Analýza níže zmíněných autorů ukázala, že čitelnost English Wikipedia je pod požadovaným standardem. Řešením mělo být vytvoření druhé verze Wikipedie – Simply English Wikipedia, která má sice lepší čitelnost, ale měla by být ještě lepší, protože se zaměřuje na osoby s nedokonalou znalostí angličtiny, malou slovní zásobou apod.
Opravdu zarážející počet článků (73,5 %) je bodově pod standardem, což je alarmující. Navíc polovina článků se klasifikuje jako obtížná nebo horší. Všechny tyto informace vedou k závěru, že četné články na Wikipedii jsou příliš obtížné ke čtení a pochopení pro čtenáře. Obsahy tedy nutně potřebují zlepšit čitelnost.
Samozřejmostí je, že články s vyšší návštěvností potřebují zlepšit čitelnost více a rychleji, než ostatní. A pokud by byly dostupné údaje o návštěvnosti stránek, mohlo by to pomoci při upřednostňování jednotlivých obsahů, které by potřebovaly zlepšit čitelnost.

Možným vysvětlením špatné čitelnosti obou verzí Wikipedií by mohlo spočívat v jejich přispěvovatelích. Autoři této studie předpokládají, že přispěvovatelé jsou vzdělané osoby, které píší obsahy pro osoby se stejným vzděláním, jaké mají oni sami, místo toho, aby psali pro široké publikum. Mohli bychom říci, že přeceňují čtenářské dovednosti a znalosti publika.

Autoři také nabízejí možnou pomoc. Navrhují zavedení editačního nástroje, který by upozornil přispěvovatele například na dlouhé věty nebo obtížná slova. Na tyto možnosti by mohli být upozornění již v průběhu editace.

Zároveň autoři upozorňují na malou rozvinutost Simple English Wikipedia. To se vyznačuje nejen malým množstvím článků, ale také jejich krátkostí (asi polovina článků má 3 a méně vět). Na této verzi Wikipedie je ještě třeba zapracovat.

O AUTORECH
Autory výše uvedeného článku jsou Teun Lucassen, Roald Dijkstra a Jan Maarten Schraagen.

Teun Lucassen nedávno dokončil doktorát v oboru kognitivní psychologie na univerzitě v Twente v Nizozemí. Jeho výzkum se zabýval tématem důvěry v online informace a společných uložišť, se zvláštním zájem o Wikipedii.

Riald Dijkstra je vlastníkem Babbletics, podniku, který se zaměřuje na rozvoj intuitivních webových aplikací.

Jan Maarten Schraagen je vedoucí vědecký pracovník nizozemské organizace pro aplikovaný vědecký výzkum TNO a profesor na univerzitě v Twente. Je také držitelem doktorátu kongitivní psychologie na univerzitě v Amsterdamu v Nizozemí.


Zdroj: 
Readability of Wikipedia. [online]. [cit. 2013-11-20]. Dostupné z: http://firstmonday.org/ojs/index.php/fm/article/view/3916/3297

No comments:

Post a Comment