Mějme zadání: pro vás nejvhodnějším způsobem si poznamenejte facebookové příspěvky těch stránek, které sledujete a jejichž obsah aspoň vzdáleně připomíná reakci či kritiku na politické dění (jinak řečeno, žádné kočičky ani sofistikované analýzy sportovních utkání). Proč to?
Tak zaprvé vás nejspíše překvapí, že selekce toho, čemu jste za poslední rok dali lajk, nebude až tak různorodá, jak jste si mysleli; ano, různým marketingovým nástrojům tak ulehčujete, aby si o vaší osobnosti pomocí chytrých algoritmů udělali docela jasno. Že machine learning a Big Data je již přítomností budoucnosti a velkým byznysem, není velká novinka; některé banky dokonce takto začínají procházejí vaše sociální data, aby upřesnily své algoritmy pro výpočet rizika, zda vám tu půjčku na novou škodovku mají dát, nebo ne. Superstar v akademických kruzích nových médií Lev Manovich zas na svém Twitteru upozornil na, že technologická společnost zaměřená na Big Data dokáže podle navštívených lokací identifikovat konzumní návyky jednotlivých uživatelů a zasadit je do předpřipravených škatulí typů konzumentů. Pro čtenáře vyznající se v přehuštěné terminologii z lehce amorfního oboru User Experience Designu se vlastně jedná o automatizované vytváření person, čímž dokonce splňují i jednu ze základních podmínek, jak ji definoval interakční designér Alan Cooper, aby persony byly založené na reálných datech reálných uživatelů. Na mém Facebooku by automat narazil na takové bizarnosti jako například, že s chladnou hlavou sleduji jak Ádvojku a Deník referendum, tak například i Parlamentní listy, ba dokonce i Pravý prostor.
Z technických důvodů jsem ale nechal česká média ležet chladem, jelikož jsem měl pro lingvistickou analýzu dostupný pouze (rozsáhlý) korpus anglického jazyka. Po listování FB stránkami jsem vybral tyto více či méně extravagantní zdroje informací:
- BBC News
- Bloomberg Business
- CNN Politics
- Counter Current News
- Democracy Now
- Deutsche Welle
- Haaretz (izraelské noviny)
- Mondoweiss
- The New York Times Opinion
- PRESS TV (íránský zdroj v anglickém jazyce)
- Reuters
- Salon
- The Economist
- The Guardian
- The Intercept
- The New Republic
- The Washington Times
- Truthdig
- Wall Street Journal
Díky Graph API od Facebooku jsem byl schopný si stáhnout přes 1000 postů, které mnou sledované zpravodajské servery nasdílely za jeden týden na své zdi. Chtěl jsem vědět, jaká klíčová slova se v určitý den a hodině nejčastěji v těchto zprávách objeví. Na lingvistickou analýzu všech těchto postů mi posloužil python a knihovna TextBlob. U každého postu jsem prošel titulek i perex a zaznamenal všechny jmenné fráze (noun phrases), ze kterých jsem učinil klíčová slova daného postu.
Zdrojová data v JSONu po analýze jmenných frází pro každý post: source_data_json.7z
S výsledným JSON souborem jsem dále pracoval v javascriptu, kde jsem data parseroval a vhodně vizualizoval. Říkal jsem si, že pro analýzu výskytu klíčových slov za časové období dobře poslouží nějaký posuvník, podle kterého budu zobrazovat data pro vizualizaci.
Zatímco v průběhu týdne byly klíčová slova rozprostřena rovnoměrně do mnoha témat, počátkem páteční noci začíná velmi zřetelně dominovat reakce na teroristické útoky v Paříži.
Zárodečný výsledek můžete posoudit: