29. februar 2008

Firefox plugins og visualiseringer - datastøttet journalistikk the New York Times way

Første dag av Car 2008 er over og blant høydepunktene i dag var seminaret med Tom Torok og Brian Hamman fra New York Times Torok er chief database editor og en trollmann med databaser og databehandling. Brian Hamman er "the new kid" om vi skal tro Toroks omtale av hva han driver med.

Blant verktøyene de har utviklet er en lenkegenerator som lenker databasene de har laget sammen med hverandre. Det virker som følger:

En reporter gjør et søk i en av de interne databasene, for eksempel den som viser hvem som har gitt hva til hvilken politisk kandidat i New Jersey. I resultatlista kommer blant annet hvem som har gitt, hvor mye, når de gjorde det, til hvem og hvem han eller hun jobber for. Over resultatlista kan du velge å samkjøre denne basen med et søk i basen over hvem som har fått offentlige kontrakter i samme stat. Resultatene i det første søket blir da automatisk lenker som du kan klikke på for å søke på det begrepet i den andre basen. Enkelt og svært effektiv.

Et annet verktøy de bruker for å se sammenhenger i store tekstmengder et Many Eyes fra IBM. Verktøyet er gratis å bruke, men dataene du bruker det på blir synlig for alle, hvilket selvsagt kan være et aber for en journalist som vil bruke det på kildemateriale. Many Eyes visualiserer sammenhenger og datamengder på flere måter. En av dem viser hvor mange ganger ord står i sammengheng, ved å gjøre ordene mindre eller større, som en tag cloud. Her er systemet brukt på forklaringen til daværende justisministerkandidat Alberto Gonzales under utspørringen i kongressen.

En annen ting de jobber med å utvikle er plug ins til reporternes Firefox-nettlesere. Disse skal for eksempel kunne skrape en hel nettside og sende den inn i redaksjones databaser ved et lite klikk. En svært spennende tankegang.

Ellers hadde Tom Torok mye gildt å si om norske FASTs ESP internsøk. Systemets evne til å kategorisere ord i tekst som personnavn, steder, fenomenet, pengesummer osv var imponerende. Et sterkt verktøy for å lete etter sammenhenger i store tekstmengder. I praksis gir systemet deg mulighet til å søke i en mengde tekstdokumenter som om de var strukturerte databasser.

Også prisen var imponerende - i nabolaget av en kvart million dollar. Tom Toroks spådom er at denne teknologien kommer til å bli langt billigere når Microsoft kjøper opp Fast. Det er lov å håpe.

Ingen kommentarer: