För lat för att räkna?

Posted on January 23, 2016

Ett, två, tre… 99, 100, 101. Ibland kan en behöva räkna ord som förekommer i olika sammanhang. När det börjar bli en stor massa, börjar det även att bli ett jobbigt räkneprojekt – i alla fall för mig.

I det här specifika fallet behövde jag få koll på vilka ord som användes mest frekvent på en kunds webbplats, när jag skulle ta fram innehållsstrategi och informationsstruktur. Det är bland annat sånt jag sysslar med i mitt arbete som strateg och projektledare på en kommunikationsbyrå.

Let me google it for you! Sa en hjälpsam, nu före detta, kollega (@jasminyaya). Detta blev resultatet.

Så räknar du ord, uppdelat i ordklasser, steg för steg

(Detta kan alltså göras på vilka textmassor som helst.)

  1. Ladda ner programmet Stagger (Stagger source code…) och Swedish model.
  2. Installera rätt version av java, ladda ner här.
  3. Klistra in den text som du vill räkna ord i en txt.fil
  4. Lägg .txt-filen i Stagger-mappen.
  5. Öppna terminal (på PC heter den Kommandoprompten)
  6. I terminalen, navigera till Stagger. Här och här kan du läsa mer om hur terminalen fungerar och hur man navigerar i den.
  7. Klistra in detta kommando i terminalen: java -Xmx8G -jar stagger.jar -modelfile swedish.bin -tag *.tx
  8. Vänta till terminalen arbetat klart, kopiera sedan outputen och klistra in i ett spreadsheet i google drive.

Nu har du alla ord som förekommer i texten uppdelat i ordklasser. Däremot förekommer de i dubbletter. Jag vill dels ta bort dubbletter, dels ordna orden i mest förekommande med fallande ordning. Metoden som följer är med säkerhet inte den mest effektiva, men den fungerade för mig.

  1. Kopiera ut en av ordklasserna, förslagsvis substantiven (kategori NN), klistra in dem i ett eget spreadsheet.
  2. Nu ska vi sortera dem efter mest frekvent använda ord. Skriv längst upp i en kolumn utan innehåll: =COUNTIF($C$1:$C$255,C1). C står för den kolumn som dina ord finns i. Byt alltså ut den i dina ord finns i en annan kolumn än C.
  3. För att rensa från dubbletter: Kopiera in orden och klistra in dem i ett excelark (jag har inte hittat den här funktionen i google drive, hojta gärna till om du vet om den finns). Kopera sedan siffrorna som visar på antal förekomenster och klistra in dem som “special, data” bredvid orden i excelarket. Markera båda kolumnerna och använd funktionen “Ta bort dubbletter” under Data i menyn.

Voilà, nu är du färdig!

Linda Eriksson

När 80-talsversionen av Linda spelade Pacman slog hon på datorn när den inte lydde henne. Sedan upptäckte hon att det var smidigare att ge den order istället. Linda är digitalrådgivare och ansvarar för den globala digitalbyrån FFW:s Sverigekontor.

Twitter: @litenmendryg
Linkedin: Linda Eriksson
Github: lindaheriksson