Den stora språkmodellen (LLM) kan skriva övertygande artiklar baserade på snabba ord, klara professionella kunskapsprov och skriva patientvänlig och empatisk information. Utöver de välkända riskerna med fiktion, bräcklighet och felaktiga fakta inom LLM, hamnar dock andra olösta frågor gradvis i fokus, såsom AI-modeller som innehåller potentiellt diskriminerande "mänskliga värden" i sitt skapande och användning, och även om LLM inte längre fabricerar innehåll och eliminerar tydligt skadliga resultat, kan "LLM-värden" fortfarande avvika från mänskliga värden.
Otaliga exempel illustrerar hur data som används för att träna AI-modeller kodar individuella och sociala värden, vilka kan befästas inom modellen. Dessa exempel involverar en rad tillämpningar, inklusive automatisk tolkning av lungröntgen, klassificering av hudsjukdomar och algoritmiskt beslutsfattande gällande medicinsk resursallokering. Som nämnts i en nyligen publicerad artikel i vår tidskrift kan partiska träningsdata förstärka och avslöja de värderingar och partiskheter som finns i samhället. Tvärtom har forskning också visat att AI kan användas för att minska partiskhet. Till exempel tillämpade forskare djupinlärningsmodeller på knäröntgenfilmer och upptäckte faktorer som missades av standardsvårighetsgradsindikatorer (graderade av radiologer) i knäleden, vilket minskade oförklarade smärtskillnader mellan svarta och vita patienter.
Även om fler och fler inser bias i AI-modeller, särskilt när det gäller träningsdata, får många andra ingångspunkter för mänskliga värden inte tillräckligt med uppmärksamhet i utvecklings- och implementeringsprocessen för AI-modeller. Medicinsk AI har nyligen uppnått imponerande resultat, men i stor utsträckning har den inte explicit beaktat mänskliga värden och deras interaktion med riskbedömning och probabilistiskt resonemang, och den har inte heller modellerats.
För att konkretisera dessa abstrakta begrepp, föreställ dig att du är en endokrinolog som ska förskriva rekombinant humant tillväxthormon till en 8-årig pojke som är under den 3:e percentilen av sin ålder. Pojkens nivå av stimulerat humant tillväxthormon är under 2 ng/ml (referensvärde >10 ng/ml, referensvärde för många länder utanför USA är >7 ng/ml), och hans gen som kodar för humant tillväxthormon har upptäckt sällsynta inaktiveringsmutationer. Vi anser att tillämpningen av behandling med humant tillväxthormon är uppenbar och obestridlig i denna kliniska miljö.
Tillämpningen av behandling med humant tillväxthormon i följande scenarier kan orsaka kontroverser: en 14-årig pojkes längd har alltid legat i den 10:e percentilen av hans jämnåriga, och toppen av humant tillväxthormon efter stimulering är 8 ng/ml. Det finns inga kända funktionella mutationer som kan påverka längden, inte heller andra kända orsaker till kortväxthet, och hans benålder är 15 år (dvs. ingen utvecklingsförsening). Endast en del av kontroversen beror på skillnader i tröskelvärden som fastställts av experter baserat på dussintals studier om nivåer av humant tillväxthormon som används för att diagnostisera isolerad tillväxthormonbrist. Minst lika mycket kontrovers härrör från risk-nytta-förhållandet vid användning av behandling med humant tillväxthormon ur patienters, patientföräldrars, sjukvårdspersonals, läkemedelsföretags och betalares perspektiv. Barnendokrinologer kan väga de sällsynta biverkningarna av dagliga injektioner av tillväxthormon i 2 år mot sannolikheten för ingen eller endast minimal tillväxt i vuxen kroppsstorlek jämfört med nutid. Pojkar kan tro att även om deras längd bara ökar med 2 cm, är det värt att injicera tillväxthormon, men betalaren och läkemedelsföretaget kan ha olika åsikter.
Vi tar kreatininbaserad eGFR som exempel, vilket är en allmänt använd njurfunktionsindikator för att diagnostisera och stadieindela kronisk njursjukdom, sätta villkor för njurtransplantation eller donation, och bestämma reduktionskriterier och kontraindikationer för många receptbelagda läkemedel. EGFR är en enkel regressionsekvation som används för att uppskatta den uppmätta glomerulära filtrationshastigheten (mGFR), vilket är en referensstandard, men utvärderingsmetoden är relativt besvärlig. Denna regressionsekvation kan inte betraktas som en AI-modell, men den illustrerar många principer om mänskliga värderingar och probabilistiskt resonemang.
Den första ingångspunkten för mänskliga värden att mata in i eGFR är när man väljer data för anpassning av ekvationer. Den ursprungliga kön som användes för att utforma eGFR-formeln består mestadels av svarta och vita deltagare, och dess tillämpbarhet på många andra etniska grupper är inte tydlig. De efterföljande ingångspunkterna för mänskliga värden i denna formel inkluderar: att välja mGFR-noggrannhet som det primära målet för att utvärdera njurfunktionen, vad som är en acceptabel noggrannhetsnivå, hur man mäter noggrannhet och använda eGFR som en tröskel för att utlösa kliniskt beslutsfattande (såsom att bestämma villkor för njurtransplantation eller förskriva läkemedel). Slutligen, när innehållet i inmatningsmodellen väljs, kommer även mänskliga värden att matas in i denna formel.
Till exempel, före 2021 föreslår riktlinjerna att kreatininnivåerna i eGFR-formeln justeras baserat på patientens ålder, kön och etnicitet (endast klassificerad som svarta eller icke-svarta individer). Justeringen baserad på etnicitet syftar till att förbättra noggrannheten i mGFR-formeln, men år 2020 började stora sjukhus ifrågasätta användningen av etnicitetsbaserad eGFR och angav skäl som att försena patientens behörighet för transplantation och konkretisera etnicitet som ett biologiskt begrepp. Forskning har visat att utformning av eGFR-modeller i termer av etnicitet kan ha djupgående och varierande effekter på noggrannhet och kliniska resultat. Att selektivt fokusera på noggrannhet eller att fokusera på en del av resultaten återspeglar därför värdebedömningar och kan maskera transparent beslutsfattande. Slutligen föreslog den nationella arbetsgruppen en ny formel som omarbetades utan att beakta etnicitet för att balansera prestations- och rättvisefrågor. Detta exempel illustrerar att även en enkel klinisk formel har många ingångspunkter till mänskliga värderingar.
Jämfört med kliniska formler med endast ett litet antal prediktiva indikatorer kan LLM bestå av miljarder till hundratals miljarder parametrar (modellvikter) eller mer, vilket gör den svårförståelig. Anledningen till att vi säger "svårförståelig" är att i de flesta LLM:er kan det exakta sättet att framkalla svar genom frågeställning inte kartläggas. Antalet parametrar för GPT-4 har ännu inte tillkännagivits; dess föregångare GPT-3 hade 175 miljarder parametrar. Fler parametrar betyder inte nödvändigtvis starkare funktioner, eftersom mindre modeller som inkluderar fler beräkningscykler (som LLaMA-modellserien [Large Language Model Meta AI]) eller modeller som är finjusterade baserat på mänsklig feedback kommer att prestera bättre än större modeller. Till exempel, enligt mänskliga bedömare, överträffar InstrumentGPT-modellen (en modell med 1,3 miljarder parametrar) GPT-3 när det gäller att optimera modellresultat.
De specifika träningsdetaljerna för GPT-4 har ännu inte avslöjats, men detaljerna för tidigare generationers modeller, inklusive GPT-3, InstrumentGPT och många andra LLM med öppen källkod, har avslöjats. Numera levereras många AI-modeller med modellkort; utvärderings- och säkerhetsdata för GPT-4 har publicerats i ett liknande systemkort som tillhandahålls av modellskapningsföretaget OpenAI. Skapandet av LLM kan grovt delas in i två steg: det initiala förträningssteget och finjusteringssteget som syftar till att optimera modellens utdataresultat. I förträningssteget förses modellen med en stor korpus inklusive den ursprungliga internettexten för att träna den att förutsäga nästa ord. Denna till synes enkla "automatiska kompletteringsprocess" producerar en kraftfull grundläggande modell, men den kan också leda till skadligt beteende. Mänskliga värderingar kommer att gå in i förträningssteget, inklusive att välja förträningsdata för GPT-4 och besluta att ta bort olämpligt innehåll som pornografiskt innehåll från förträningsdatan. Trots dessa ansträngningar kan den grundläggande modellen fortfarande varken vara användbar eller kapabel att innehålla skadliga utdataresultat. I nästa steg av finjustering kommer många användbara och ofarliga beteenden att framträda.
I finjusteringsfasen förändras språkmodellers beteende ofta djupt genom övervakad finjustering och förstärkningsinlärning baserat på mänsklig feedback. I den övervakade finjusteringsfasen skriver anlitad entreprenörspersonal svarsexempel för promptord och tränar modellen direkt. I förstärkningsinlärningsfasen, baserat på mänsklig feedback, sorterar mänskliga utvärderare modellens utdataresultat som exempel på indatainnehåll. Sedan tillämpar de ovanstående jämförelseresultaten för att lära sig "belöningsmodellen" och ytterligare förbättra modellen genom förstärkningsinlärning. Fantastiskt mänskligt engagemang på låg nivå kan finjustera dessa stora modeller. Till exempel använde InstrumentGPT-modellen ett team på cirka 40 entreprenörspersonal rekryterade från crowdsourcing-webbplatser och klarade ett screeningtest som syftade till att välja en grupp annotatörer som är känsliga för preferenserna hos olika befolkningsgrupper.
Som dessa två extrema exempel, nämligen den enkla kliniska formeln [eGFR] och den kraftfulla LLM [GPT-4], visar, spelar mänskligt beslutsfattande och mänskliga värderingar en oumbärlig roll i att forma modellens resultat. Kan dessa AI-modeller fånga deras olika patient- och läkarvärderingar? Hur kan man offentligt vägleda tillämpningen av AI inom medicin? Som nämns nedan kan en omprövning av medicinsk beslutsanalys ge en principiell lösning på dessa frågor.
Medicinsk beslutsanalys är inte bekant för många kliniker, men den kan skilja mellan probabilistiskt resonemang (för osäkra utfall relaterade till beslutsfattande, såsom huruvida man ska administrera humant tillväxthormon i det kontroversiella kliniska scenariot som visas i figur 1) och hänsynsfaktorer (för subjektiva värden kopplade till dessa utfall, vars värde kvantifieras som "nytta", såsom värdet av en 2 cm ökning av manlig längd), vilket ger systematiska lösningar för komplexa medicinska beslut. Vid beslutsanalys måste kliniker först fastställa alla möjliga beslut och sannolikheter som är förknippade med varje utfall, och sedan inkludera patientens (eller annan parts) nytta som är förknippad med varje utfall för att välja det lämpligaste alternativet. Därför beror beslutsanalysens validitet på om utfallssättningen är heltäckande, samt om mätningen av nytta och uppskattningen av sannolikhet är korrekta. Idealiskt sett bidrar denna metod till att säkerställa att besluten är evidensbaserade och i linje med patientens preferenser, vilket minskar klyftan mellan objektiva data och personliga värderingar. Denna metod introducerades inom det medicinska området för flera decennier sedan och tillämpades på individuellt patientbeslutsfattande och befolkningshälsobedömning, såsom att ge rekommendationer för screening för kolorektal cancer till den allmänna befolkningen.
Inom medicinsk beslutsanalys har olika metoder utvecklats för att fastställa nytta. De flesta traditionella metoder härleder värde direkt från enskilda patienter. Den enklaste metoden är att använda en skattningsskala, där patienter bedömer sin preferensnivå för ett visst utfall på en digital skala (t.ex. en linjär skala från 1 till 10), med de mest extrema hälsoresultaten (t.ex. fullständig hälsa och död) placerade i båda ändar. Tidsutbytesmetoden är en annan vanligt förekommande metod. I denna metod behöver patienterna fatta ett beslut om hur mycket hälsosam tid de är villiga att spendera i utbyte mot en period av dålig hälsa. Standardmetoden för spel är en annan vanligt förekommande metod för att bestämma nytta. I denna metod tillfrågas patienterna vilket av de två alternativen de föredrar: antingen leva ett visst antal år med normal hälsa med en specifik sannolikhet (p) (t), och bära risken för död med en 1-p sannolikhet; antingen se till att leva i t år under korsande hälsoförhållanden. Fråga patienterna flera gånger vid olika p-värden tills de inte visar någon preferens för något alternativ, så att nyttan kan beräknas baserat på patientens svar.
Förutom metoder som används för att ta reda på individuella patienters preferenser har metoder också utvecklats för att uppnå nytta för patientpopulationen. Särskilt fokusgruppsdiskussioner (där patienter samlas för att diskutera specifika erfarenheter) kan bidra till att förstå deras perspektiv. För att effektivt aggregera gruppnytta har olika strukturerade gruppdiskussionstekniker föreslagits.
I praktiken är det mycket tidskrävande att direkt introducera nytta i den kliniska diagnos- och behandlingsprocessen. Som en lösning distribueras vanligtvis frågeformulär till slumpmässigt utvalda populationer för att få nyttovärden på populationsnivå. Några exempel inkluderar det 5-dimensionella frågeformuläret EuroQol, det 6-dimensionella nyttoviktsförkortningsformuläret, Health Utility Index och det cancerspecifika verktyget Quality of Life Questionnaire Core 30 från European Cancer Research and Treatment Organization.
Publiceringstid: 1 juni 2024




