Twitter, hashtagy a prezidentské volby v USA

Intro

Pro předmět Základy studia nových médií jsme se tentokrát zaměřili na sociální sítě, které jsme mohli prozkoumat a osvětlit libovolné téma pomocí vizualizace dat. Jako nástroj pro samotnou analýzu jsme si vybrali open-source vizualizační program Gephi, který je postaven na javovské NetBeans platformě. Z té dědí několik dobrých i špatných vlastností: modularitu, velkou sada funkcí, občasnou nestabilitu a v neposlední řadě GUI, které nebylo navrženo jako nativní pro specifické OS, což může znamenat pro mnohé uživatele ne zcela intuitivní ovládání. Autoři Gephi se dále chlubí, že se jedná o software, který je v dané kategorii Photoshopem vizualizace dat. Nechám na čtenáři, je-li to z marketingového hlediska dobrý slogan.

Téma bylo libovolné, a tak jsem se rozhodl zjisti, jak lidé na sociální síti Twitter reagují na události, které nejen na druhé straně Atlantiku zaměstnávají lidem většinu volného času: prezidentské volby v USA.

Potom, co jsem měl téma vybrané, stál jsem před mnohem složitější otázkou, která měla rozhodnout o tom, zda následující hodiny práce budou buď pouze bezúčelným, nebo prospěšným hraním si na datového analytika — otázkou, jakým způsobem naložím s daty, jaká data vůbec budu potřebovat, co v těchto datech budu hledat, a zdali je teoreticky možné to z těchto dat získat. Jinak řečeno, vědět, co přesně v datech hledat, je v mnoha případech důležitější než vědět, jak něčeho dosáhnout. Ve skutečnosti jsou tyto otázky od sebe neoddělitelné, neboť se navzájem informují.

Tak například výborné doménové znalosti jsou dle současných teorií kreativity jedním z předpokladů pro to, aby člověk přišel na něco nového, užitečného a funkčního, což jsou mimochodem vlastnosti, jež každý kreativní výstup musí splňovat. Doménové znalosti jsou samozřejmě nutným předpokladem pro eminentní výkon v každé lidské činnosti. A jsou to právě doménové znalosti, které z datové analytiky činí mnohem více, než jen aplikaci rigorózních matematických metod na sadu dat; datová analytika vyžaduje i ony znalosti, které akademická obec považuje za soft: povědomí o společnosti, kultuře a momentálním kontextu oblasti, kterou budu zkoumat, tedy jakési humanitní, soft-science povědomí. Mojí zcela spekulativní hypotézou vysvětlující, proč je tak málo kvalitních datových analytiků, je právě ne-častý požadavek být dobrým matematikem i humanistou zároveň, mít informaticko-matematické vzdělání spojené s dávkou zdravého povědomí, co se děje za okny ve společnosti, pak i znalosti sociologie, antropologie, ba dokonce literatury či filosofie, a nedejbože i nových médií. Chce to poetu i šachistu, vědce i umělce.

Dobrá, jak jsem naložil s tímto wicked problémem, kde existuje mnoho možných řešení, kde odpověď neosciluje mezi binárním ANO-NE, ale je spíše na spojité stupnici vhodnosti? Jakou otázku jsem se rozhodl prozkoumat?

Twitter je vhodnou platformou pro textovou analýzu, především díky tomu, že příspěvky jsou na základě své limitace 140 znaků konzistentní, což analýzu zjednodušuje. Kromě samotného příspěvku, jenž zde označím za vlastní příspěvek, obsahuje twitterový příspěvek i text plnící funkci popisu vlastního příspěvku, jedná se tak o meta-data. Za ty se považuje kombinace znaku zavináč @ + jméno uživatele, kterého se vlastní příspěvek nějakým způsobem týká, a samozřejmě také znak # + libovolný text, tedy kombinace dnes již hojně označovaná za hashtag.

Protože hashtagy jsou častokrát používány nikoli jako zcela nerelevatní, nesouvisející řetězec znaků, ale jako meta-data, jež doplňují vlastní příspěvek o užitečné kontextuální informace pomáhající čtenářům v porozumění twitterového příspěvku, rozhodl jsem se využít právě hashtagů k tomu, abych se dobral pohledu na to, jak lidé reagují, píší, a tedy přemýšlí o prezidentských kampaních mnou vybraných kandidátů. Jak přesně by hashtagy ale měly být k tomu užitečné, a co vlastně hashtag znamená?

Sociální web 2.0, folksonomie a hashtagy

Etymologicky a lingvisticky vzato, slovo hashtag vzniklo kombinací slov „hash“ a „tag“. Zatímco slovo hash referuje nekomplikovaně ke znaku křížku či mřížky #, druhá polovina této sloučeniny, slovo tag, je mnohem zajímavější, především proto, že tagy představovaly důležitý aspekt v transformaci Webu na sociální platformu, které se souhrnně začalo říkat Web 2.0. Termín dříve tak často užívaný, že jej mnozí odsuzovali jako pouhý marketingový buzzword, přesto se jednalo a stále jedná o užitečné označení Webu, kdy nové technologie, nové přístupy v tvorbě webových stránek a aplikací daly vzniknout tendencím a projektům, jež se znatelně lišily od toho, co po zavedení verze 2.0 nazýváme Webem 1.0. Shrnutí všech významných změn popsal vlivný článek What is Web 2.0 od Tima O’Reillyho, proto se zde omezím pouze na to, co se přímo týká tagů, respektive hashtagů: folksonomii a na to, co O’Reilly nazval „zapřáhnutím kolektivní inteligence“.

Ačkoli se to může zdát z dnešního pohledu nepředstavitelné, platforma Webu nebyla vždy tak interaktivní, responzivní a uživatelům otevřená. Je to ale pochopitelné, neboť kreativita tvůrců webových stránek vždy šla ruku v ruce s tím, co umožňovala technologie. Tak například webový designér nemohl při svém návrhu webových stránek přemýšlet nad tím, že jeho web bude mít plno fotografického materiálu, až do doby, kdy v roce 1993 přišel na trh prohlížec Mosaic, který jako první umožňoval, aby se grafické elementy (např. fotografie, grafické prvky uživatelského rozhraní) nezobrazovaly v novém okně, ale přímo uvnitř obsahu webové stránky. Mosaic lze tak považovat za webový prohlížeč, který vůbec poprvé umožnil, aby se Web priblížil grafickému designu, čímž zároveň vznikla poptávka po web designérech, informačních architektech, tedy profesionálech, kteří dokázali tyto nové a úžasné grafické možnosti vhodně zformovat tak, aby webová stránka umožnila návštěvníkům rychle a vhodně poskytnout informace i zážitky.

S příchodem skriptovacích jazyků na straně klienta jako byl Javascript, prohlížečů, i použití vhodnějších programovacích jazyků a databází, a hlavně podpory funkcionalit ze strany dodavatelů webových prohlížečů, vznikaly webové projekty, které umožňovaly nejen bohatší interakce, ale také zapojení svých uživatelů do tvorby webového obsahu. Zatímco dříve webové stránky byly statické a sloužily jako o něco dražší náhrada tištěných firemních brožurek (teoretička a designérka Rachel Hinman takové webové stránky skutečně nazvala brochureware), nyní webové stránky se staly dynamickým prostorem, kde uživatel nebyl pouze návštěvník, ale i spoluautor. Tato sociální revoluce platformy Webu také znamenala, že Web začal konečně využívat své největší přednosti: hypertextu a hyperlinků. O’Reilly ve svém článku poznamenává, že:

„Hyperlinkování je základem webu. Když uživatelé přidávají nový obsah a nové stránky, začnou být svázané s [předchozí] strukturou webu tím, že další uživatelé tento obsah objeví a odkazují na něj. Tak jako se synapse tvoří v mozku a spojení se stávají opakováním či intenzitou silnější, rostou propojení webu organicky jako výsledek kolektivní aktivity všechny uživatelů webu“ (O’Reilly, 2005)

Mezi prototypické představitele sociální revoluce platformy Webu řadí O’Reilly kromě Wikipedie a Ebay také dříve populární projekt na tvorbu záložek (bookmarks) del.icio.us a stále aktivní, dnes již pod Yahoo spadající Flickr. Oba projekty popularizovaly koncept „tagování“, tedy umožňovaly uživatelům označit přidané fotografie nebo záložky krátkými slovy, jejichž výběr byl zcela v rukou uživatelů, jejich kreativity, vzdělání či znalostí. Tato uživatelsky definovaná klasifikace položek si vynesla označení folksonomy, jež vzniklo spojením slov folk (lidový) a taxonomy.

Kromě toho, že sociální funkcionality webových projektů a tagy outsourcují generování obsahu a jeho kategorizaci k uživatelům, čímž mimo jiné demokratizují Web jako takový, poskytují také mimořádný pohled do myšlení jednotlivých uživatelů, jelikož při definování tagů uživatel sice může být ovlivněn momentálními konvencemi a populárností vybraných tagů, ale jinak mu standardně na současných populárních webových projektech umožňující (hash)tagování teoreticky nebrání nic, aby tagoval dle libosti. V praktické rovině ale uživatel přeci jen volí tagování svých fotek nebo zpráv podle toho, aby co nejlépe využil celé podstaty tagování: krátké komentování toho, o čem položka pojednává, co vyobrazuje. Určité tagy se mohou stát natolik populárními, že vytváří určitý souvislý příběh, to lze vidět často na současných sociálních sítí jako Twitter, který dynamicky vytváří seznam právě nejpoužívanějších tagů. Jejich popularita často koresponduje s nějakou významnou socio-kulturní událostí jako například vyhlašování vítězů filmových cen Oscar, politický skandál, válečný konflikt či přírodní neštěstí. Takové použití (hash)tagů je ale již popisem zcela aktuální situace: Twitter ale (hash)tagy nenabízel ihned po svém spuštění a po zavedení předpokládal, že budou využívané trochu jinak.

Twitter a hashtag

Když byl Twitter v roce 2006 spuštěn, nenabízel „žádný technický ani sociálních mechanismus, který umožňoval odpovědět jinému uživateli, organizovat pospolu tweety, či indikovat, že tweet je součástí širšího tématu.“ (Highfield, 2015) Teprve v roce 2007 navrhl Chris Messina, toho času pracovník Google, ucelenou představu toho, jak by Twitter mohl využít znaku „#“ ke seskupování twitter zpráv. Messina se inspiroval u protokolu a chatu IRC (Internet Relay Chat), kde se symbol křížku využívá pro označení kanálů a témat, tedy pro stejnou funkci, kterou chtěl Messina zavést pro síť Twitter. Jeden z důvodů, proč se hashtag (hash + tag) rychle uchytil, byl malý nárok na změny stávající infrastruktury Twitteru; hashtag dále nevyžadoval po uživatelích technické znalosti kódování a vyhledávání. (Messina, 2007)

Zavedení hashtagu tak původně sloužilo pro seskupení twitter zpráv podle stejného tématu. (Scott, 2015) Někteří akademici zkoumající sociální sítě si ale povšimli, že již mezi lety 2009 a 2010 toto puristické využití hashtagů se rychle změnilo v „neřízenou střelu“ (went rogue). Další tvrdí, že hashtagy přestaly sloužit pro organizaci obsahu a proměnily se v „lingvistický nádor“. (Vosper, 2016)

Jinak řečeno, hashtag se z utilitárního nástroje změnil na nástroj, kterým uživatelé začali vyjadřovat své emoce, aniž by brali ohled na to, zda takový osobní a emocionální hashtag přispěje ke kategorizaci twitter příspěvku, případně k jeho lepší viditelnosti a dohledání.

Co analýza hashtagů na sociální síti Twitter podle mého názoru musí inherentně předpokládat, je fakt, že ať už hashtag zastupuje subjektivní emocionální vztahy, nebo naopak objektivní a cílenou kategorizaci příspěvku za účelem snažšího vyhledávání, zvolený hashtag nutně souvisí s jednak s vlastním příspěvkem, jednak i s otatními tagy v rámci stejného příspěvku.

Pokud tomu tak je, nepokládám hashtagy zastupující emoce za problém. Naopak, analýza hastagů může odkrýt nejen spolu související témata (např. když jsou témata indikována hashtagy, které jsou užity v rámci jednoho příspěvku), ale také to, jaký osobní postoj a emoce uživatelé zastávají k danému tématu (např. když uživatel v jednom příspěvku použije jeden z hashtagů jako zástupce hlavního tématu a jeden a více hashtagů pro vyjádření osobního, emocionálního postoje k danému tématu).

Vrátím-li se k původnímu tématu tohoto textu — analýze amerických prezidentských voleb — mám v plánu využít výše zmíněné hypotézy: pokud twitter příspěvek obsahuje více hashtagů, budou tyto hashtagy znázorňovat mimo jiné vztahy mezi hlavními tématy konkrétního vlastního příspěvku a vztah mezi hlavními tématy a subjektivních, emocionálních reakcí. Při dostatečném počtu příspěvků by měla analýza odkrýt strukturu sítě vztahů typu téma-téma a téma-emocionální reakce.

Metoda

Pro svou analýzu jsem si vybral čtyři prezidentské kandidáty, dva kandidující za Demokratickou stranu a dva kandidáty za Republikány. Jsou jimi Hillary Clintonová, Bernie Sanders, Donald Trump a Ted Cruz. Pro jednotlivé kandidáty jsem vybral vhodné hashtagy, které jsou významně spojeny s prezidentkými kampaněni kandidátů. Taková analýza není vyčerpávající, pro jednoho kandidáta existuje více populárních hashtagů, pro pilotní výzkum zvolené hashtagy považuji za postačující.

Data pro vybrané hashtagy jsem získal použitím webové aplikace http://socioviz.net/, pro kterou je možné zdarma získat uživatelský účet. Ten je omezen tím, kolik aplikace uživateli v rámci jednoho dotazu vrátí výsledků. V současné době je pro uživatele s omezeným účtem zdarma povoleno získat na jeden dotaz až 100 twitter příspěvků z velmi limitovaného časového intervalu jednoho dne. Tento nepříjemný limit lze částečně obejít, pokud si uživatel stáhne data zvlášť pro jednotlivé dny. Bohužel i tak není možné změnit limitovaný časový interval, tudíž twitterové příspěvky budou v daném dni z minutového intervalu mezi časy 18:58 a 18:59. Pro svou analýzu jsem zvolil data mezi dny 1. 4. 2016 a 6. 4. 2016 včetně. Dohromady jsem tak pro každý hashtag pracoval se 600 twitterovými příspěvky.

Zvolené hashtagy

Hillary Clintonová: #iamwithher
Bernie Sanders: #feelthebern
Donald Trump: #donaldtrump
Ted Cruz: #tedcruz

Nastavení Gephi

Rozložení: ForceAtlas 2
- Odsunout středy
- Režim Linlog
- Zabránit překrytí
- Vliv hmotnosti hrany 1.0
- Změna velikosti 2.0
- Gravitace 0.2
Rozsah stupně filter: 5 (pro #tedcruz 12)
Modularity Class

Nastavení Gephi pro „tag cloud“

Rozložení: Fruchterman Reingold
Rozsah stupně filter: 12
Zobrazit hrany: Ne

Výsledky

Pro každého kandidáta jsem exportoval dva typy grafů: jeden graf v rozložení ForceAtlas 2 a druhý ve Fruchterman Reingold, který se zdá být přehlednější v případě, pokud můžeme zobrazit hashtagy jako „tag cloud“, bez zvýrazněné vzdálenosti od středního uzlu. Pro „tag cloud“ zobrazení jsem vypnul hrany a navíc zvětšil dolní limit pro filtr celkového stupně uzlu. Připomínám, že v directed grafu, kde hrany mají směr, což je můj případ, se celkový stupeň k uzlu i počítá součtem vstupních a výstupních hran, matematicky vyjádřeno jako:

U každého kandidáta nakonec uvádím tabulku nejpoužívanějších hastagů, které uživatelé použili společně s primárním hastagem.

Hillary Clintonová

#iamwithher hashtag, forceatlas2, degree filter 5 (klikni pro plné rozlišení 8192 x 4096)

#iamwithher hashtag, tag cloud, degree filter 12 (klikni pro plné rozlišení 8192 x 4096)

[embeddoc url=“http://www.jakubferenc.cz/wordpress/wp-content/uploads/2016/04/iamwithher-Nodes-1.xlsx“ download=“all“ viewer=“microsoft“]

#iamwithher hashtag, tag cloud, degree filter 12, tabulka hashtagů vyskytujících se s primárním, seřazených podle váhy

Bernie Sanders

#feelthebern hashtag, forceatlas2, degree filter 5 (klikni pro plné rozlišení 8192 x 4096)

#feelthebern hashtag, tag cloud, degree filter 12 (klikni pro plné rozlišení 8192 x 4096)

[embeddoc url=“http://www.jakubferenc.cz/wordpress/wp-content/uploads/2016/04/feelthebern-Nodes.xlsx“ download=“all“ viewer=“microsoft“]

#feelthebern hashtag, tag cloud, degree filter 12, tabulka hashtagů vyskytujících se s primárním, seřazených podle váhy

Donald Trump

#donaldtrump hashtag, forceatlas2, degree filter 5 (klikni pro plné rozlišení 8192 x 4096)

#donaldtrump hashtag, tag cloud, degree filter 12 (klikni pro plné rozlišení 8192 x 4096)

[embeddoc url=“http://www.jakubferenc.cz/wordpress/wp-content/uploads/2016/04/donaldtrump-Nodes.xlsx“ download=“all“ viewer=“microsoft“]

#donaldtrump hashtag, tag cloud, degree filter 12, tabulka hashtagů vyskytujících se s primárním, seřazených podle váhy

Ted Cruz

#tedcruz hashtag, forceatlas2, degree filter 5 (klikni pro plné rozlišení 8192 x 4096)

#tedcruz hashtag, tag cloud, degree filter 12 (klikni pro plné rozlišení 8192 x 4096)

[embeddoc url=“http://www.jakubferenc.cz/wordpress/wp-content/uploads/2016/04/tedcruz-Nodes.xlsx“ download=“all“ viewer=“microsoft“]

#tedcruz hashtag, tag cloud, degree filter 12, tabulka hashtagů vyskytujících se s primárním, seřazených podle váhy

Komentář k datům

coming soon

Literatura

HIGHFIELD, Tim a Tama LEAVER. 2015. A methodology for mapping Instagram hashtags. First Monday. 20(1), -. DOI: 10.5210/fm.v20i1.5563. ISSN 13960466. Dostupné také z: http://journals.uic.edu/ojs/index.php/fm/article/view/5563

MESSINA, Chris. 2007. Groups for Twitter: or a proposal for Twitter tag channels [online]. [cit. 2016-04-07]. Dostupné z: http://factoryjoe.com/2007/08/25/groups-for-twitter-or-a-proposal-for-twitter-tag-channels/

O’REILLY, Tim. 2005. What Is Web 2.0: Design Patterns and Business Models for the Next Generation of Software.O’Reilly.com [online]. [cit. 2016-04-07]. Dostupné z: http://www.oreilly.com/pub/a/web2/archive/what-is-web-20.html

SCOTT, Kate. 2015. The pragmatics of hashtags: Inference and conversational style on Twitter. Journal of Pragmatics. 81, 8-20. DOI: 10.1016/j.pragma.2015.03.015. ISSN 03782166. Dostupné také z: http://linkinghub.elsevier.com/retrieve/pii/S037821661500096X

VOSPER, Yuwa. 2016. Hashtags: Not Just Used in Social Media [online]. Louisiana State University Baton Rouge, LA [cit. 2016-04-07]. Dostupné z: https://www.academia.edu/23491466/Hashtags_Not_Just_Used_in_Social_Media