Korpus är ett begrepp som främst används inom språkvetenskapen för att beteckna en stor, strukturerad samling av texter eller talat språk som fungerar som underlag för lingvistisk analys. Ordet fungerar som en teknisk term för det källmaterial som forskare använder för att studera hur språket faktiskt används i praktiken, snarare än hur det teoretiskt bör användas. Utöver lingvistiken förekommer korpus även inom anatomi och typografi, där det i samtliga fall syftar på en “kropp” eller en sammanhållen huvudenhet.
Vad betyder korpus?
Betydelsen av korpus varierar beroende på det fackområde där ordet tillämpas. Här följer de vanligaste betydelseklustren:
Inom lingvistik och språkforskning
- Textsamling: En digital eller analog samling av texter som valts ut för att representera ett visst språkbruk.
- Databas: En sökbar mängd språklig data som används för att träna algoritmer eller genomföra statistiska analyser.
- Källmaterial: Den empiriska grunden för en vetenskaplig undersökning av språk.
- Språkprov: En samling autentiska exempel på hur ord och fraser kombineras i naturligt tal eller skrift.
Inom anatomi och allmän betydelse
- Kropp: Den centrala eller huvudsakliga delen av ett organ (exempelvis corpus uteri).
- Stomme: Den bärande delen av en konstruktion eller ett föremål.
- Huvuddel: Den största delen av en skriftlig handling eller ett dokument.
Inom typografi och hantverk
- Grad: En specifik storlek på trycktyper, traditionellt motsvarande 12 punkter.
- Korpusarbete: Inom silversmide betecknar det tillverkning av större föremål som skålar och kannor (till skillnad från smycken).
Motsatsord till korpus
Eftersom korpus betecknar en helhet eller en samling, relaterar dess motsatser ofta till det enskilda eller det ofullständiga:
- Fragment: Enstaka delar som inte utgör en representativ helhet.
- Enskildhet: Ett isolerat exempel utanför ett sammanhang.
- Abstraktion: Teoretiska antaganden som saknar stöd i faktiskt material.
- Tomrum: Frånvaro av material eller substans.
Hur används ordet korpus?
I modern svenska används korpus oftast i akademiska eller tekniska sammanhang, särskilt när man talar om digital humaniora och AI-utveckling.
- “Forskarlaget analyserade en korpus bestående av samtliga riksdagsprotokoll från 1900-talet för att spåra politiska begreppsförändringar.”
- “För att träna den nya språkmodellen krävdes en omfattande korpus av högkvalitativ svensk sakprosa.”
- “Inom anatomin studerar man hur korpus callosum förbinder hjärnans båda hemisfärer.”
- “Silversmeden specialiserade sig på korpus och skapade magnifika nattvardskärl till kyrkan.”
Uttryck och ordspråk relaterade till korpus
Det finns få folkliga ordspråk med ordet korpus, men inom fackspråket är vissa uttryck mycket etablerade:
- Korpuslingvistik: En gren av lingvistiken som baserar sin forskning på analyser av stora textmängder.
- Referenskorpus: En balanserad samling texter som används som norm för att jämföra olika språkliga fenomen.
- Parallellkorpus: En samling texter på ett språk tillsammans med deras översättningar till ett annat språk.
Nyanser och skillnader
Det är viktigt att skilja mellan en korpus och en vanlig “textsamling”. En korpus är i regel noggrant urvalskriterierad och ofta försedd med metadata eller lingvistisk annotering (exempelvis ordklassmärkning). En slumpmässig hög med böcker är alltså inte en korpus i vetenskaplig mening förrän den har strukturerats för analys.
I vardagligt tal kan “material” ofta ersätta korpus, men korpus signalerar en högre grad av vetenskaplig stringens. Inom hantverk är skillnaden mellan “smyckessmide” och “korpus” fundamental; korpus kräver helt andra tekniker för att driva upp stora former ur metallplåtar.
Böjningar och grammatik
Ordet korpus är ett substantiv och böjs enligt följande mönster i svenskan:
- Singular obestämd: en korpus
- Singular bestämd: korpusen
- Plural obestämd: korpusar (ibland används den latinska pluralformen corpora i akademisk text)
- Plural bestämd: korpusarna
Etymologi och historik
Ordet korpus härstammar direkt från latinets corpus, som betyder “kropp”. Det har samma rot som ord som “korpulent” (kroppsligen stor) och “korporation” (en sammanslutning eller “kropp” av människor). Inom lingvistiken började termen användas i större skala under 1960-talet i samband med att datorer gjorde det möjligt att bearbeta stora mängder text digitalt, vilket lade grunden för den moderna korpuslingvistiken.
Vanliga frågor om korpus
Vad är en digital korpus?
En digital korpus är en samling texter som lagrats elektroniskt för att kunna genomsökas med datorprogram. Det gör det möjligt att på sekunder hitta mönster som tidigare skulle tagit åratal att upptäcka manuellt.
Är Wikipedia en korpus?
Wikipedia kan användas som en korpus av forskare, men i sig själv är det ett uppslagsverk. För att bli en korpus i lingvistisk mening behöver texterna ofta extraheras och bearbetas för att passa ett specifikt analysverktyg.
Vad betyder korpus inom silversmide?
Inom silversmide och metallhantverk syftar korpus på tillverkning av ihåliga föremål som kannor, skålar och vaser. Det kallas ofta för korpusarbete och kräver särskild skicklighet i att forma metallen med hammare.
Engelsk översättning
Den mest korrekta engelska översättningen av korpus är:
- Corpus (plural: corpora)
