Den semantiske teorien om spørreskjemaer i ledelse (STSR)

Ord som «ledelse» og «motivasjon» er konstruksjoner. Vi har funnet dem opp. I likhet med ord som aksjeselskaper, bilmerker og rettssikkerhet er disse ordene bare virkelige dersom vi later som om de er virkelige. Dette kalles konstruksjonisme. Det er ikke tull av den grunn – det kan være nyttig – men det er altså likevel språklige konstruksjoner. Det viser seg nå at spørreskjemaer, som er mye brukt i forskning på ledelse, stort sett er forutsigbare før man har spurt noen. Det skyldes at de mest forteller oss om hvordan folk snakker om ledelse og motivasjon, ikke så mye om hvordan dette skjer i handling. Ved hjelp av digitale språkalgoritmer kan vi nå vise hvordan disse ordene er konstruert, og hvordan forskningen i stor grad egentlig er språkforskning.

Jeg holdt i 2021 et video-foredrag som sammenfatter det meste av forskningen. Filmen er tilgjengelig på YouTube her, og på 30 minutter får du servert det meste uten å lese lange artikler (men litt komplekst likevel).

Mange av disse arbeidene er i tidsskrifter som tillater «åpen tilgang» (open access), det vil si at man kan laste ned artikkelen uten å ha abonnert. Her kommer noen mine arbeider som er fritt tilgjengelig for den som vil lese:

Kan vi stole på at spørreskjemaer forteller oss noe om ledelse?

Rundt 2012 begynte jeg og min venn Kai Larsen å lure på om data fra spørreskjemaer er litt tvilsomme. I 2014 fikk vi publisert denne artikkelen, der vi viser at de fleste spørreskjemaer om ledelse er selvfølgelige. Sammenhenger i svar er gitt på forhånd gjennom språket. Dermed kan vi bruke datamaskiner til å finne mønstre i svar. Her er artikkelen:

Arnulf, J. K., Larsen, K. R., Martinsen, O. L., & Bong, C. H. (2014). Predicting survey responses: how and why semantics shape survey statistics on organizational behaviour. PLoS ONE, 9(9), e106361. doi:10.1371/journal.pone.0106361

Vi kan forutsi på hva folk kommer til å svare før de har svart!

Da vi hadde fått publisert den undersøkelsen kunne vi ta for oss et annet rart fenomen, også. Hvis strukturene i spørreskjemaer kan forutsies – før man har spurt noen – så må det jo være mulig å gjette på hva folk kommer til å svare også. Før de har svart! Det er litt mer komplisert, men i den artikkelen som kommer her har vi vist hvordan det er mulig i prinsippet. Hvis vi kjenner de par første svarene på et spørreskjema vil vi kunne gjette ganske bra på hva respondenten vil svare på resten av spørsmålene. Her er lenke til artikkelen:

Arnulf, J. K., Larsen, K. R., & Martinsen, Ø. L. (2018). Respondent Robotics: Simulating Responses to Likert-Scale Survey Items. Sage Open, 8(1), 1-18. doi:10.1177/2158244018764803

Men spørreskjemaer er kulturblinde:

Hvis tekst-algoritmene kan forutsi datastrukturene innenfor ett språk, så er det fordi statistikken bare gjenspeiler meningen i spørsmålstekstene. Hvis man oversetter spørsmålene korrekt (og statistikken altså skyldes semantikken) så vil tekst-algoritmene forutsi svar på tvers av alle språk, så lenge spørsmålene er korrekt oversatt. Vi testet dette med ulike utvalg av kinesere, nordmenn, pakistanere, tyskere, personer med engelsk morsmål og en rekke andre grupper og dette var akkurat hva vi fant: Algoritmene kunne forklare mesteparten av alle sammenhenger i data på tvers av alle språk. Praktisk talt ingen ting var igjen som kunne beskrives som «kulturelt». Derfor vil spørreskjemaer innen ledelse (og liknende måleinstrumenter) være blinde for kultur, så lenge de er basert på semantiske sammenhenger. Artikkelen finner du her:

Arnulf, J. K., & Larsen, K. R. (2020). Culture blind leadership research: How semantically determined survey data may fail to detect cultural differences. Frontiers in Psychology, 11(176). doi:https://doi.org/10.3389/fpsyg.2020.00176

Det viser seg at alle yrkesgrupper er like motiverte! De tolker nemlig spørsmåene forskjellig:

Vi lot 399 personer fra 18 svært forskjellige yrkesgrupper fylle ut spørsmål om motivasjon. Etter teorien bør folk som har større autonomi og variasjon i arbeidsoppgaver være mer motivert enn andre. I tillegg er resultatlønn beryktet for å ødelegge såkalt «indre motivasjon», eller gleden over arbeidet i seg selv. Dette fant vi bare tendenser til. I våre tall var alle, inkludert prester, prostituerte, konserdirektører og leiesoldater mest indre motivert. Ønsket om å tjene penger på jobben var underordnet denne arbeidsgleden. De var også alle sammen motivert for å stille opp for en arbeidsgiver i knipe, og alle jobbet med god innsats og kvalitet. Når vi så på dette med semantiske algoritmer, viser det seg at folk i ulike situasjoner forstår spørsmålene ulikt. Ulike mennesker gir samme score på spørsmålene, men fordi de fortolker spørsmålene ulikt. Da er det ikke så lett å sammenlikne motivasjon på tvers av jobber. Artikkelen finner du her:

Arnulf, J. K., Nimon, K., Larsen, K. R., Hovland, C. V., & Arnesen, M. (2020). The Priest, the Sex Worker, and the CEO: Measuring Motivation by Job Type. Frontiers in Psychology, 11, 1321. doi:10.3389/fpsyg.2020.01321

Statistikken fra mange spørreskjemaer handler ikke om det som spørreskjemaet handlet om:

Den vanligste forståelsen av spørreskjemaer er at svarene gjenspeiler folks holdninger eller holdningsstyrke. En person som svarer med scoren 5, altså «i svært stor grad» på et spørsmål, vil ha en «sterkere» holdning enn en person som svarer 1 eller «overhodet ikke». Den vanlige statistikken anvendt på slike spørreskjemaer vil se på hvor mye eller lite ulike spørsmål varierer med hverandre – for eksempel om en person som er fornøyd med lederen sin er mindre tilbøyelig til slutte i jobben. I denne artikkelen fra 2018 fant vi noe merkelig. Når svarene er semantisk betinget, blir holdningsstyrken filtrert ut av statistikken. Vi kunne vise at alt som var igjen, var tall som indikerer den semantiske sammenhengen i spørsmålene. Holdningsstyrken er borte. Dette er den vanskeligste men filosofisk mest problematiske av artiklene om semantikk så langt og originalen er her (dessverre ikke open source):

Arnulf, J. K., Larsen, K. R., Martinsen, O. L., & Egeland, T. (2018). The failing measurement of attitudes: How semantic determinants of individual survey responses come to replace measures of attitude strength. Behav Res Methods, 50(6), 2345-2365. doi:10.3758/s13428-017-0999-y

Språk om ledelse er ikke bare forskjellig mellom yrker, men utvikles også over tid:

Siden årsaken til at spørreskjemaer er forutsigbare ligger i språket, så kan vi bruke dem til å forske på utviklingen av begreper som ledelse, motivasjon og resultater. Denne artikkelen som vi publiserte i 2018 viste hvordan språkutviklingen i samfunnet former responser på spørreskjemaer om ledelse. «Ledelse» og «motivasjon» er ikke naturgitte fenomener. Det er ord som vi har funnet på, og der bruken av dem endrer seg over tid:

Arnulf, J. K., Larsen, K. R., & Martinsen, Ø. L. (2018). Semantic algorithms can detect how media language shapes survey responses in organizational behaviour. PLoS ONE, 13(2), 1-26. doi:https://doi.org/10.1371/journal.pone.0207643

Folk har vanskelig for å skille mellom ledere og helter fordi de er så nært forbundet i språket:

Når språket bestemmer vårt syn på ledere så sterkt, finnes det også en tendens til at vi blander sammen ting med ledere simpelthen fordi det henger sammen i språket. En fornøyelig (eller skummel virkning) av dette er at vi raskt vil tro at ledere er en slags heltetyper. Eller at helter også burde være ledere. Begge deler fører til overspente ideer om ledere, og vil føre til at folk flest blir skuffet over alminnelige ledere av kjøtt og blod. Folk ser ofte ut til å være skuffet over sine egne sjefer. Det kan man lese om i denne artikkelen her:

Arnulf, J. K., & Larsen, K. R. (2015). Overlapping semantics of leadership and heroism: Expectations of omnipotence, identification with ideal leaders and disappointment in real managers. Scandinavian Psychologist, 2(e3). doi:10.15714/scandpsychol.2.e3

Vi kan bruke digitale algoritmer til å bryte våre egne kognitive begrensninger:

Vi vet åpenbart ikke hva vi allerede vet. Det er derfor vi kan beregne sammenhenger i spørreskjemaer på forhånd, og å bli overrasket over det. Den amerikanske filosofen Daniel Dennett sier om oss at vi er kompetente uten forståelse: De fleste av oss er i stand til å snakke men uten å kunne forklare språket. Språket inneholder dermed masse kunnskap som vi kan gjøre bruk av, men vi greier ikke å utnytte dette helt bevisst. På den måten kan vi gå oss vill i vår egen språklige konstruksjon av verden. Språket er som en stor labyrint av ord og meningsbærende uttrykk, der vi kan «oppdage» innsikter som har ligget i språket hele tiden. Jan Smedslund er en norsk professor i psykologi som har jobbet med dette i mange tiår. Han har advart mot at mye sosialvitenskapelig forskning ikke greier å trenge ut av denne labyrinten. Vi driver med «pseudo-empirisk» forskning, som hele tiden bare gjenoppdager det som er NØDT til å være sant ut fra språklige hensyn. Jeg har skrevet et kapittel i en bok som hyller Smedslunds livsverk. I dette kapitlet prøver jeg å vise hvordan tekst-algoritmene kan være en vei ut av labyrinten. Det er mulig at vi kan bruke algoritmene til å utforske grensene for våre egne språklige konstruksjoner. Her låner jeg litt fra filosofene Gottlob Frege, Ludwig Wittgenstein og Bertrand Russell. Bok-kapitlet er tilgjengelig her:

Arnulf, J. K. (2020). Wittgenstein’s revenge: How semantic algorithms can help survey research escape Smedslund’s labyrinth. In T. G. Lindstad, E. Stänicke, & J. Valsiner (Eds.), Respect for Thought; Jan Smedslund’s Legacy for Psychology (pp. 285-307). Cham: Springer.

Kan vi bruke semantikk til å måle forskjeller mellom folk? Ja!

Med dette bok-kapitlet fikk Kai Larsen og jeg anledning til å delta i et prosjekt som ser på sammenhengen mellom personlighet og situasjoner i psykologisk forskning. Det er en kjent sak at i «sterke situasjoner» vil situasjonen ikke utløse særlig mye personlige reaksjoner. For eksempel lar de fleste være å ta telefonen i en begravelse. Omvendt er vil «svake situasjoner», som for eksempel uformelle samtaler, overlate mye til personligheten. I vårt kapittel her viser vi hvordan språket kan forstås som en «sterk situasjon» som utløser ganske lik atferd hos mange. Imidlertid vil også individer og grupper oppvise spesielle kjennetegn ved sin språkbruk. Dette kan brukes til å modellere forskjeller på individer og grupper i psykologisk profilering. Kapitlet finnes her (dessverre ikke open access):

Arnulf, J. K., & Larsen, K. R. (2021). Semantic and ontological structures of psychological attributes. In D. Wood, S. J. Read, P. D. Harms, & A. Slaughter (Eds.), Measuring and modeling persons and situations (pp. 69-102). London, UK: Academic Press.

Og her har vi brukt semantiske algoritmer for å utforske tanker om konspirasjonsteorier:

Det viser seg – kanskje ikke helt overraskende – at folk som er sterke tilhengere av urimelige konspirasjonsteorier også har andre uvanlige tankemønstre. I denne undersøkelsen her fant vi ut at mange tilhengere av konspirasjonsteorier også oppviser noen av de samme raritetene i tenkning som vi ser hos folk med psykoser. Dette betyr ikke at det er psykotisk å ha slike forestillinger, men at tankesettet er preget av assosiasjoner som andre ikke kan følge, og at de er vanskelige tilgjengelige for argumentasjon fra andre mennesker:

Arnulf, J. K., Robinson, C., & Furnham A. (2022). «Dispositional and ideological factor correlate of conspiracy thinking and beliefs.» PLoS One 17(10): e0273763.

Hvorfor er dette viktig for all forskning innenfor psykologi?

I en undersøkelse vi publiserte i 2022 fant vi en underlig særtrekk ved psykologisk forskning: En gjennomgang av all forskning publisert i årene 1956-2022 viste at det ikke finner sted noen som helst utvikling av psykologiske teoriers evne til å forutsi atferd. Den såkalte forklarte variansen holder seg flatt på akkurat 42,8%, hvert eneste år, siden 1956. Hvorfor flatt? Og hvorfor akkurat 42%? Ved å bruke semantiske algoritmer til å rekonstruere 50 tilfeldig valgte slike studier, fant vi at tallet 42 mest sannsynlig er forårsaket av våre egne metoder. Hvis vi tenker innenfor rammene av faktoranalyser blir dette tydelig. Her kan vi tenke på variable som enten tilhørende innenfor ett og samme konstrukt, eller som omkringliggende variable som predikerer andre konstrukter. Metodologiske konvensjoner tilsier at kryssladninger skal være lave, mens ladninger innenfor et konstrukt skal være høye. Det viser seg at hvis vi deler de gjennomsnittlite kryssladningene på de gjennomsnittlige faktorladningene (f.eks. 0,30/0,70), så vil du vanligvis komme til et tall i nærheten av 0,42. Dette betyr at innenfor all psykologisk forakning så vil alle variable vanligvis forklare hverandre i et omfang på 42%. Og dette forholdstallet viser seg å kunne predikeres helt presist gjennom semantiske variable, rett og slett fordi sammenhengen er betinget av de semantiske egenskapene ved definisjonen av variable og målingsindikatorer. For å si det litt plumpt, så ser psykologien ut til hele tiden å gjenoppdage at alle variable kan forklares ved et 42% overlapp med alle andre variable. Detaljene kan du lese om her:

Smedslund, G., Arnulf, J. K., & Smedslund, J. (2022). Is psychological science progressing? Explained variance in Psycinfo articles during the period 1956 to 2022. Frontiers in Psychology. https://doi.org/doi.org/10.3389/fpsyg.2022.1089089

I 2024 publiserte vi en oversiktsartikkel om hva all denne forskningen betyr for psykologisk forskning og teoriutvikling:

Forskningen som er listed opp på denne siden, sammen med forskning publisert fra andre grupperinger, tyder på at psykologiske målinger ofte stammer fra en semantisk språklig struktur, og ikke fra fenomenene som man prøver å måle. Dette innebærer at vi egentlig driver forskning på representasjoner av verden, ikke verden selv – som å forske på kartet i stedet for verden. I denne artikkelen kan du lese en sammenfatning av hva alt dette betyr. Vi argumenterer for at det gamle begrepet «nomologiske nettverk» er bedre beskrevet som «semantiske nettverk»:

Arnulf, J. K., Olsson, U. H., & Nimon, K. (2024). Measuring the menu, not the food: «Psychometric» data may instead measure «lingometrics» (and miss its greatest potential). Frontiers in Psychology, 15. https://doi.org/DOI: 10.3389/fpsyg.2024.1308098

Er vi alene om å jobbe med disse metodene? Nei! Et stigende antall forskere er i gang med slike metoder og har komplettert vår forskning innenfor klinisk psykologi, velgeratferd og sosiale medier. Et spesialnummer i tidsskriftet Frontiers in Psychology presenterer en stor bredde i anvendelsesmuligheter i et fellesskap av forskere fra USA, Skottland, Sverige og Norge:

Arnulf, J. K., Larsen, K. R., Martinsen, Ø. L., & Nimon, K. F. (2021). Editorial: Semantic Algorithms in the Assessment of Attitudes and Personality. Frontiers in Psychology, 12(3046). doi:10.3389/fpsyg.2021.720559

I tilfelle du har lyst til å prøve metoden selv, så forklarer vi i detalj hvordan du kan gjøre det:

Dette er en metodeartikkel som forklarer de semantiske algoritmene og hvordan de kan brukes. En tidligere publisert artikkel om Human Resource Development blir re-analysert som et eksempel i små skritt om gangen. Du vil også finne data og litt syntax-koder slik at du kan leke deg og prøve selv:

Arnulf, J. K., Larsen, K., & Dysvik, A. (2018). Measuring Semantic Components in Training and Motivation: A Methodological Introduction to the Semantic Theory of Survey Response. Human Resource Development Quarterly, 30(1), 17-38. doi:https://doi.org/10.1002/hrdq.21324