Vizualizace klíčových slov z Facebook postů

Mějme zadání: pro vás nejvhodnějším způsobem si poznamenejte facebookové příspěvky těch stránek, které sledujete a jejichž obsah aspoň vzdáleně připomíná reakci či kritiku na politické dění (jinak řečeno, žádné kočičky ani sofistikované analýzy sportovních utkání). Proč to?

Tak zaprvé vás nejspíše překvapí, že selekce toho, čemu jste za poslední rok dali lajk, nebude až tak různorodá, jak jste si mysleli; ano, různým marketingovým nástrojům tak ulehčujete, aby si o vaší osobnosti pomocí chytrých algoritmů udělali docela jasno. Že machine learning a

Big Data

je již přítomností budoucnosti a velkým byznysem, není velká novinka; některé banky dokonce takto začínají procházejí vaše sociální data, aby upřesnily své algoritmy pro výpočet rizika, zda vám tu půjčku na novou škodovku mají dát, nebo ne. Superstar v akademických kruzích nových médií Lev Manovich zas na svém Twitteru upozornil na, že technologická společnost zaměřená na Big Data dokáže podle navštívených lokací identifikovat konzumní návyky jednotlivých uživatelů a zasadit je do předpřipravených škatulí typů konzumentů. Pro čtenáře vyznající se v přehuštěné terminologii z lehce amorfního oboru User Experience Designu se vlastně jedná o automatizované vytváření

person

, čímž dokonce splňují i jednu ze základních podmínek, jak ji definoval interakční designér Alan Cooper, aby persony byly založené na reálných datech reálných uživatelů. Na mém Facebooku by automat narazil na takové bizarnosti jako například, že s chladnou hlavou sleduji jak Ádvojku a Deník referendum, tak například i Parlamentní listy, ba dokonce i Pravý prostor.

Skyhook categories people into consumer types based on locations they visit

#BigData

https://t.co/CyTczxXNv4

pic.twitter.com/2muNscmZiq

— manovich (@manovich)

November 14,2015

Z technických důvodů jsem ale nechal česká média ležet chladem, jelikož jsem měl pro lingvistickou analýzu dostupný pouze (rozsáhlý) korpus anglického jazyka. Po listování FB stránkami jsem vybral tyto více či méně extravagantní zdroje informací:

BBC News
Bloomberg Business
CNN Politics
Counter Current News
Democracy Now
Deutsche Welle
Haaretz (izraelské noviny)
Mondoweiss
The New York Times Opinion
PRESS TV (íránský zdroj v anglickém jazyce)
Reuters
Salon
The Economist
The Guardian
The Intercept
The New Republic
The Washington Times
Truthdig
Wall Street Journal

Díky Graph API od Facebooku jsem byl schopný si stáhnout přes 1000 postů, které mnou sledované zpravodajské servery nasdílely za jeden týden na své zdi. Chtěl jsem vědět, jaká klíčová slova se v určitý den a hodině nejčastěji v těchto zprávách objeví. Na lingvistickou analýzu všech těchto postů mi posloužil python a knihovna TextBlob. U každého postu jsem prošel titulek i perex a zaznamenal všechny jmenné fráze (noun phrases), ze kterých jsem učinil klíčová slova daného postu.

Zdrojová data v JSONu po analýze jmenných frází pro každý post:

source_data_json.7z

S výsledným JSON souborem jsem dále pracoval v javascriptu, kde jsem data parseroval a vhodně vizualizoval. Říkal jsem si, že pro analýzu výskytu klíčových slov za časové období dobře poslouží nějaký posuvník, podle kterého budu zobrazovat data pro vizualizaci.

Zatímco v průběhu týdne byly klíčová slova rozprostřena rovnoměrně do mnoha témat, počátkem páteční noci začíná velmi zřetelně dominovat reakce na teroristické útoky v Paříži.

Zárodečný výsledek můžete posoudit:

http://stunome.jakubferenc.cz/vizualizace/