Språkbehandlingsverktøy
Språkbehandlingsverktøy er uunnværlige i de fleste språkteknologiske applikasjoner. Slike verktøy forenkler og automatiserer prosesser for analyse og bearbeiding av språklige data, blant annet ved å splitte en tekst opp i setninger, analysere setningen på ulike nivåer og ved å filtrere bort elementer som ikke er en del av teksten. Vi har utviklet en rekke slike verktøyer, alene eller i samarbeid med andre:
- Korpuslingvistiske verktøyer for konkordanser og statistikk.
- Verktøyer for filtrering og normalisering av nett-tekst.
- Grammatisk tagger for annotasjon av ordklasse, morfologiske, syntaktiske og stilistiske trekk Oslo-Bergen-taggeren).
- Verktøyer for generering og bearbeiding av alle typer databaser for allmennspråk og terminologi, både én- og flerspråklige.
- Navnegjenkjenner.
- Verktøyer for sammenstilling av parallelle tekster i flerspråklige korpus.
- Verktøyer for lenking av tekst og lyd i talekorpus.
- Stave- og grammatikkontroller.
Prosjekter
BREDT (Behandling av refererende enheter i diskursteori)
COLA (Corpus de Lenguaje Adolescente)
COLT (The Bergen Corpus of London Teenage Language)
ICAME (International Computer Archive of Modern and Medieval English)
LOGON (Leksikon, ordsemantikk, grammatikk og oversettelse for norsk)
Navnegjenkjenner
Norsk dialektkorpus
Norsk korpus (Søk og grensesnitt, tagging og koding)
Ordnett (Fra parallellkorpus til ordnett)
SCARRIE (Scandinavian Proofreading Tools)
Temabasert informasjonsfiltrering (nå TextUrgy)
Medarbeidere
Kontaktperson
Paul Meurer / paul.meurer@uni.no

