Språkbehandlingsverktøy

Språkbehandlingsverktøy er uunnværlige i de fleste språkteknologiske applikasjoner. Slike verktøy forenkler og automatiserer prosesser for analyse og bearbeiding av språklige data, blant annet ved å splitte en tekst opp i setninger, analysere setningen på ulike nivåer og ved å filtrere bort elementer som ikke er en del av teksten. Vi har utviklet en rekke slike verktøyer, alene eller i samarbeid med andre:

  • Korpuslingvistiske verktøyer for konkordanser og statistikk.
  • Verktøyer for filtrering og normalisering av nett-tekst.
  • Grammatisk tagger for annotasjon av ordklasse, morfologiske, syntaktiske og stilistiske trekk Oslo-Bergen-taggeren).
  • Verktøyer for generering og bearbeiding av alle typer databaser for allmennspråk og terminologi, både én- og flerspråklige.
  • Navnegjenkjenner.
  • Verktøyer for sammenstilling av parallelle tekster i flerspråklige korpus.
  • Verktøyer for lenking av tekst og lyd i talekorpus.
  • Stave- og grammatikkontroller.

Prosjekter

ASK (Norsk andrespråkskorpus)

BREDT (Behandling av refererende enheter i diskursteori)

COLA (Corpus de Lenguaje Adolescente)

COLT (The Bergen Corpus of London Teenage Language)

ICAME (International Computer Archive of Modern and Medieval English)

LOGON (Leksikon, ordsemantikk, grammatikk og oversettelse for norsk)

Navnegjenkjenner

Norsk tonelagstypologi

Norsk aviskorpus

Norsk dialektkorpus

Norsk korpus (Søk og grensesnitt, tagging og koding)

Ordnett (Fra parallellkorpus til ordnett)

SCARRIE (Scandinavian Proofreading Tools)

Temabasert informasjonsfiltrering (nå TextUrgy)

Medarbeidere

Knut Hofland

Paul Meurer

Koenraad De Smedt

Helge Dyvik

Victoria Rosén

 

Kontaktperson

Paul Meurer / paul.meurer@uni.no

 
Side-alternativer