Sedan IBM Watson startade 2007 har människor kontinuerligt arbetat med utvecklingen av medicinsk artificiell intelligens (AI). Ett användbart och kraftfullt medicinskt AI-system har enorm potential att omforma alla aspekter av modern medicin, möjliggöra smartare, mer exakt, effektiv och inkluderande vård, ge välbefinnande för vårdpersonal och patienter och därigenom avsevärt förbättra människors hälsa. Under de senaste 16 åren har forskare inom medicinsk AI samlats inom olika små områden, men i detta skede har de ännu inte kunnat förverkliga science fiction.
I år, med den revolutionerande utvecklingen av AI-teknik som ChatGPT, har medicinsk AI gjort stora framsteg på många områden. Oöverträffat genombrott i medicinsk AI:s förmåga: Nature journal har kontinuerligt lanserat forskning om medicinska stora språkmodeller och medicinska bilder som grundmodeller; Google släpper Med-PaLM och dess efterföljare, och når en expertnivå i frågorna för amerikanska läkarprov. Stora akademiska tidskrifter kommer att fokusera på medicinsk AI: Nature släpper utsikterna för den grundläggande modellen för allmän medicinsk AI; Efter en serie granskningar av AI inom medicin tidigare i år publicerade New England Journal of Medicine (NEJM) sin första digitala hälsoöversikt den 30 november och lanserade det första numret av NEJM:s undertidskrift NEJM AI den 12 december. Landningsmarken för medicinsk AI har mognat ytterligare: JAMA:s undertidskrift publicerade det globala initiativet för delning av medicinska bilder; US Food and Drug Administration (FDA) utvecklar utkast till riktlinjer för reglering av medicinsk AI.
Nedan granskar vi de betydande framsteg som forskare runt om i världen har gjort i riktning mot användbar medicinsk AI under 2023.
Medicinsk AI-grundmodell
Konstruktionen av medicinsk AI-basmodell är utan tvekan årets hetaste forskningsfokus. Tidskrifterna Nature har publicerat översiktsartiklar om den universella grundläggande modellen för hälso- och sjukvård och den stora språkmodellen för hälso- och sjukvård under året. Medical Image Analysis, den ledande tidskriften i branschen, granskade och såg fram emot utmaningarna och möjligheterna med grundläggande modellforskning inom medicinsk bildanalys och föreslog konceptet "stamtavla för grundläggande modell" för att sammanfatta och vägleda utvecklingen av grundläggande modellforskning inom medicinsk AI. Framtiden för grundläggande AI-modeller för hälso- och sjukvården blir allt tydligare. Med utgångspunkt i framgångsrika exempel på stora språkmodeller som ChatGPT, med hjälp av mer avancerade självövervakade förträningsmetoder och omfattande ackumulering av träningsdata, försöker forskare inom medicinsk AI bygga 1) sjukdomsspecifika basmodeller, 2) generella basmodeller och 3) multimodala stora modeller som integrerar ett brett spektrum av lägen med massiva parametrar och överlägsna funktioner.
AI-modell för medicinsk datainsamling
Förutom de stora AI-modellerna som spelar en stor roll i kliniska dataanalysuppgifter nedströms, har även tekniken som representeras av generativa AI-modeller framkommit inom klinisk datainsamling uppströms. Processen, hastigheten och kvaliteten på datainsamlingen kan förbättras avsevärt med AI-algoritmer.
Tidigare i år publicerade Nature Biomedical Engineering en studie från Turkiets Straits University som fokuserade på att använda generativ AI för att lösa problemet med patologisk bildassisterad diagnos i kliniska tillämpningar. Artefakter i fryst snittvävnad under kirurgi är ett hinder för snabb diagnostisk utvärdering. Även om formalin- och paraffininbäddad (FFPE) vävnad ger ett prov av högre kvalitet, är dess produktionsprocessen tidskrävande och tar ofta 12–48 timmar, vilket gör den olämplig för användning vid kirurgi. Forskargruppen föreslog därför en algoritm som kallas AI-FFPE, som kan få vävnaden i det frysta snittet att se ut som FFPE. Algoritmen korrigerade framgångsrikt artefakterna i frysta snitt, förbättrade bildkvaliteten och bibehöll samtidigt de kliniskt relevanta egenskaperna. Vid klinisk validering förbättrar AI-FFPE-algoritmen avsevärt patologernas diagnostiska noggrannhet för tumörsubtyper, samtidigt som den avsevärt förkortar den kliniska diagnostiden.
Cell Reports Medicine rapporterar ett forskningsarbete av ett team från Jilin Universitys tredje kliniska högskola, radiologiavdelningen, Zhongshan-sjukhuset anslutet till Fudan-universitetet, och Shanghai University of Science and Technology [25]. Denna studie föreslår ett generellt ramverk för djupinlärning och iterativ rekonstruktion (Hybrid DL-IR) med hög mångsidighet och flexibilitet, vilket visar utmärkta bildrekonstruktionsprestanda i snabb MRI, lågdos-CT och snabb PET. Algoritmen kan uppnå MR-skanning av ett organ med flera sekvenser på 100 sekunder, reducera stråldosen till endast 10 % av CT-bilden, eliminera brus och rekonstruera små lesioner från PET-bilder med 2 till 4 gångers acceleration, samtidigt som effekten av rörelseartefakter minskas.
Medicinsk AI i samarbete med sjukvårdspersonal
Den snabba utvecklingen av medicinsk AI har också lett till att sjukvårdspersonal på allvar överväger och utforskar hur man kan samarbeta med AI för att förbättra kliniska processer. I juli i år föreslog DeepMind och ett multiinstitutionellt forskarteam gemensamt ett AI-system som kallas Complementary Driven Clinical Workflow Delay (CoDoC). Diagnostikprocessen diagnostiseras först av ett prediktivt AI-system, bedöms sedan av ett annat AI-system utifrån det tidigare resultatet, och om det råder tvivel ställs diagnosen slutligen av en läkare för att förbättra diagnostisk noggrannhet och balansera effektiviteten. När det gäller bröstcancerscreening minskade CoDoC antalet falskt positiva resultat med 25 % med samma andel falskt negativa resultat, samtidigt som klinikernas arbetsbelastning minskade med 66 %, jämfört med den nuvarande "dubbelläsningsskiljeförfarande"-processen i Storbritannien. När det gäller tuberkulosklassificering minskade antalet falskt positiva resultat med 5 till 15 procent med samma andel falskt negativa resultat jämfört med oberoende AI och kliniska arbetsflöden.
På liknande sätt introducerade Annie Y. Ng et al., från Kheiron Company i London, Storbritannien, ytterligare AI-avläsare (i samarbete med mänskliga granskare) för att omgranska resultaten när det inte fanns några återkallningsresultat i dubbelavläsningsprocessen, vilket förbättrade problemet med missad upptäckt vid tidig bröstcancerscreening, och processen hade nästan inga falskt positiva resultat. En annan studie, ledd av ett team vid University of Texas McGovern Medical School och genomförd vid fyra strokecenter, använde datortomografiangiografi (CTA)-baserad AI-teknik för att automatisera detektionen av stor vaskulär ocklusiv ischemisk stroke (LVO). Kliniker och radiologer får realtidsvarningar på sina mobiltelefoner inom några minuter efter att datortomografin är klar, vilket meddelar dem om eventuell förekomst av LVO. Denna AI-process förbättrar arbetsflöden på sjukhuset för akut ischemisk stroke, vilket minskar tiden från dörr till ljumske från inläggning till behandling och ger möjligheter till framgångsrik räddningsinsats. Resultaten publiceras i JAMA Neurology.
En AI-vårdmodell för universell nytta
2023 kommer också att innebära mycket bra arbete med medicinsk AI för att hitta funktioner som är osynliga för det mänskliga ögat från mer lättillgänglig data, vilket möjliggör universell diagnos och tidig screening i stor skala. I början av året publicerade Nature Medicine studier utförda av Zhongshan Eye Center vid Sun Yat-sen University och Second Affiliated Hospital vid Fujian Medical University. Med hjälp av smartphones som applikationsterminaler använde de serietidningsliknande videobilder för att framkalla barns blick och registrera barns blickbeteende och ansiktsdrag, och analyserade vidare onormala modeller med hjälp av djupinlärningsmodeller för att framgångsrikt identifiera 16 ögonsjukdomar, inklusive medfödd katarakt, medfödd ptos och medfödd glaukom, med en genomsnittlig screeningsnoggrannhet på mer än 85 %. Detta ger ett effektivt och lättillgängligt tekniskt medel för storskalig tidig screening av synnedsättning hos spädbarn och relaterade ögonsjukdomar.
I slutet av året rapporterade Nature Medicine om arbete som utförts av fler än 10 medicinska och forskningsinstitutioner runt om i världen, inklusive Shanghai Institute of Pancreatic Disease och First Affiliated Hospital of Zhejiang University. Författaren tillämpade AI för screening av bukspottkörtelcancer hos asymptomatiska personer på fysiska undersökningscenter, sjukhus etc. för att upptäcka lesionssärdrag i vanliga datortomografibilder som är svåra att upptäcka med blotta ögat, för att uppnå effektiv och icke-invasiv tidig upptäckt av bukspottkörtelcancer. Vid granskning av data från fler än 20 000 patienter identifierade modellen också 31 fall av kliniskt missade lesioner, vilket avsevärt förbättrade de kliniska resultaten.
Delning av medicinska uppgifter
År 2023 har många fler perfekta datadelningsmekanismer och framgångsrika fall dykt upp runt om i världen, vilket säkerställer samarbete mellan flera center och dataöppenhet under förutsättningen att skydda dataintegritet och säkerhet.
För det första har AI-forskare, med hjälp av själva AI-tekniken, bidragit till delandet av medicinsk data. Qi Chang och andra från Rutgers University i USA publicerade en artikel i Nature Communications, där de föreslår ett federalt inlärningsramverk, DSL, baserat på distribuerade syntetiska kontradiktoriska nätverk, som använder generativ AI för att träna specifikt genererade data från multicenter och sedan ersätter verkliga data från multicenter med genererad data. Säkerställ AI-träning baserad på stordata från flera center samtidigt som datasekretessen skyddas. Samma team öppnar också källkoden för en datauppsättning med genererade patologiska bilder och deras motsvarande annoteringar. Segmenteringsmodellen som tränas på den genererade datamängden kan uppnå liknande resultat som verkliga data.
Dai Qionghais team från Tsinghua University publicerade en artikel om npj Digital Health, där de föreslog Relay Learning, som använder big data från flera platser för att träna AI-modeller under förutsättningen av lokal datasuveränitet och ingen nätverksanslutning mellan platser. Den balanserar datasäkerhet och integritetsfrågor med strävan efter AI-prestanda. Samma team utvecklade och validerade därefter gemensamt CAIMEN, ett system för diagnos av panmediastinala tumörer i bröstet baserat på federal inlärning, i samarbete med First Affiliated Hospital of Guangzhou Medical University och 24 sjukhus över hela landet. Systemet, som kan tillämpas på 12 vanliga mediastinala tumörer, uppnådde 44,9 procent bättre noggrannhet när det användes ensamt än när det användes enbart av mänskliga experter, och 19 procent bättre diagnosnoggrannhet när mänskliga experter fick hjälp av det.
Å andra sidan pågår flera initiativ för att bygga säkra, globala, storskaliga medicinska datamängder. I november 2023 publicerade Agustina Saenz och andra från institutionen för biomedicinsk informatik vid Harvard Medical School ett globalt ramverk för delning av medicinska bilddata som kallas Artificial Intelligence Data for All Healthcare (MAIDA) online i Lancet Digital Health. De arbetar med vårdorganisationer runt om i världen för att ge omfattande vägledning om datainsamling och avidentifiering, med hjälp av den amerikanska Federal Demonstration Partner (FDP)-mallen för att standardisera datadelning. De planerar att gradvis släppa datamängder som samlats in i olika regioner och kliniska miljöer runt om i världen. Den första datamängden förväntas släppas i början av 2024, och fler kommer att tillkomma allt eftersom partnerskapet expanderar. Projektet är ett viktigt försök att bygga en global, storskalig och mångsidig uppsättning offentligt tillgängliga AI-data.
I kölvattnet av förslaget har UK Biobank föregått med gott exempel. UK Biobank släppte nya data den 30 november från helgenomsekvenseringen av sina 500 000 deltagare. Databasen, som publicerar den fullständiga genomsekvensen för var och en av de 500 000 brittiska volontärerna, är den största kompletta databasen för det mänskliga genomet i världen. Forskare runt om i världen kan begära tillgång till dessa avidentifierade data och använda dem för att undersöka den genetiska grunden för hälsa och sjukdom. Genetiska data har alltid varit mycket känsliga för verifiering tidigare, och denna historiska prestation för UK Biobank bevisar att det är möjligt att bygga en öppen, integritetsfri global storskalig databas. Med denna teknik och databas är medicinsk AI oundvikligen ett steg framåt.
Verifiering och utvärdering av medicinsk AI
Jämfört med den snabba utvecklingen av medicinsk AI-teknik i sig är utvecklingen av verifiering och utvärdering av medicinsk AI något långsam. Validering och utvärdering inom det allmänna AI-området ignorerar ofta de verkliga kraven på AI som kliniker och patienter har. Traditionella randomiserade kontrollerade kliniska prövningar är för arbetskrävande för att matcha den snabba iterationen av AI-verktyg. Att förbättra verifierings- och utvärderingssystemet som är lämpligt för medicinska AI-verktyg så snart som möjligt är det viktigaste för att främja medicinsk AI och verkligen ta språnget framåt mot klinisk landning.
I Googles forskningsartikel om Med-PaLM, publicerad i Nature, publicerade teamet även utvärderingsriktmärket MultiMedQA, som används för att bedöma stora språkmodellers förmåga att inhämta klinisk kunskap. Riktmärket kombinerar sex befintliga professionella medicinska frågedatabaser, som täcker professionell medicinsk kunskap, forskning och andra aspekter, samt en online-sökdatabas med medicinska frågor, som tar hänsyn till online-frågor och svar mellan läkare och patient, i ett försök att utbilda AI till kvalificerade läkare ur många aspekter. Dessutom föreslår teamet ett ramverk baserat på mänsklig bedömning som tar hänsyn till flera dimensioner av fakta, förståelse, resonemang och eventuell partiskhet. Detta är en av de mest representativa forskningsinsatserna för att utvärdera AI inom hälso- och sjukvården som publicerats i år.
Men betyder det faktum att stora språkmodeller uppvisar en hög nivå av kodning av klinisk kunskap att stora språkmodeller är kompetenta för verkliga kliniska uppgifter? Precis som en läkarstudent som klarar läkarexamen med perfekt resultat fortfarande är långt ifrån en ensam överläkare, kanske de utvärderingskriterier som Google föreslagit inte är ett perfekt svar på ämnet medicinsk AI-utvärdering för AI-modeller. Redan 2021 och 2022 har forskare föreslagit rapporteringsriktlinjer som Decid-AI, SPIRIT-AI och INTRPRT, i hopp om att vägleda den tidiga utvecklingen och valideringen av medicinsk AI under förutsättning att faktorer som klinisk praktiskhet, säkerhet, mänskliga faktorer och transparens/tolkningsbarhet beaktas. Nyligen publicerade tidskriften Nature Medicine en studie av forskare från Oxford University och Stanford University om huruvida man ska använda "extern validering" eller "återkommande lokal validering" för att validera AI-verktyg.
AI-verktygs opartiska natur är också en viktig utvärderingsinriktning som har uppmärksammats i år i både Science- och NEJM-artiklar. AI uppvisar ofta partiskhet eftersom den är begränsad till träningsdata. Denna partiskhet kan återspegla social ojämlikhet, som vidare utvecklas till algoritmisk diskriminering. National Institutes of Health lanserade nyligen Bridge2AI-initiativet, som uppskattas kosta 130 miljoner dollar, för att bygga olika datamängder (i linje med målen för MAIDA-initiativet som nämns ovan) som kan användas för att validera medicinska AI-verktygs opartiskhet. Dessa aspekter beaktas inte av MultiMedQA. Frågan om hur man mäter och validerar medicinska AI-modeller behöver fortfarande en omfattande och djupgående diskussion.
I januari publicerade Nature Medicine en opinionsartikel med titeln "Nästa generation av evidensbaserad medicin" av Vivek Subbiah från University of Texas MD Anderson Cancer Center, där han granskade begränsningarna hos kliniska prövningar som avslöjats i samband med covid-19-pandemin och pekade på motsättningen mellan innovation och att följa den kliniska forskningsprocessen. Slutligen pekar den på en framtid för omstrukturering av kliniska prövningar – nästa generation av kliniska prövningar som använder artificiell intelligens, det vill säga användningen av artificiell intelligens från ett stort antal historiska forskningsdata, verkliga data, multimodala kliniska data och data från bärbara enheter för att hitta viktiga bevis. Betyder detta att AI-teknik och kliniska valideringsprocesser för AI kan ömsesidigt förstärka och samutvecklas i framtiden? Detta är den öppna och tankeväckande frågan för 2023.
Reglering av medicinsk AI
Utvecklingen av AI-teknik innebär också utmaningar för regleringen av AI, och beslutsfattare runt om i världen reagerar noggrant och noggrant. År 2019 publicerade FDA för första gången ett förslag till regelverk för programvaruändringar för medicintekniska produkter med artificiell intelligens (diskussionsutkast), som beskriver dess potentiella tillvägagångssätt för granskning före försäljning av AI- och maskininlärningsdrivna programvarumodifieringar. År 2021 föreslog FDA "Artificial Intelligence/Maskininlärningsbaserad programvara som en handlingsplan för medicintekniska produkter", som förtydligade fem specifika medicinska regleringsåtgärder för AI. I år återutgav FDA en ny policy för inlämning före försäljning av funktioner i enhetsprogramvara för att ge information om rekommendationer för inlämning före försäljning för FDA:s utvärdering av säkerheten och effekten av funktioner i enhetsprogramvara, inklusive vissa funktioner i enhetsprogramvara som använder maskininlärningsmodeller som tränats genom maskininlärningsmetoder. FDA:s regleringspolicy har utvecklats från ett initialt förslag till praktisk vägledning.
Efter publiceringen av det europeiska hälsodataområdet i juli förra året har EU återigen antagit lagen om artificiell intelligens (AI). Den förra syftar till att utnyttja hälsodata på bästa sätt för att tillhandahålla högkvalitativ hälso- och sjukvård, minska ojämlikheter och stödja data för förebyggande, diagnos, behandling, vetenskaplig innovation, beslutsfattande och lagstiftning, samtidigt som EU-medborgarna har större kontroll över sina personliga hälsodata. Den senare tydliggör att det medicinska diagnossystemet är ett AI-system med hög risk, och det behöver införa riktad och stark tillsyn, livscykeltillsyn och tillsyn före utvärdering. Europeiska läkemedelsmyndigheten (EMA) har publicerat ett utkast till reflektionsdokument om användningen av AI för att stödja läkemedelsutveckling, reglering och användning, med betoning på att förbättra AI:s trovärdighet för att säkerställa patientsäkerhet och integriteten hos kliniska forskningsresultat. Sammantaget tar EU:s regleringsplan gradvis form, och de slutliga implementeringsdetaljerna kan bli mer detaljerade och strikta. I skarp kontrast till EU:s strikta reglering tydliggör Storbritanniens AI-regleringsplan att regeringen planerar att ha en mjuk strategi och inte anta nya lagförslag eller inrätta nya tillsynsmyndigheter för tillfället.
I Kina har Medical Device Technical Review Center (NMPA) inom National Medical Products Administration tidigare utfärdat dokument som ”Review Points of Deep Learning Assisted Decision Software”, ”Guiding Principles for the Registration Review of Artificial Intelligence Medical Devices (Draft for Comment)” och ”Circular on Guiding Principles for the Classification and Definition of Artificial Intelligence Medical Software Products (nr 47 år 2021)”. I år släpptes återigen ”Sammanfattning av de första resultaten av klassificeringen av medicintekniska produkter 2023”. Denna dokumentserie gör definitionen, klassificeringen och regleringen av medicinska programvaruprodukter för artificiell intelligens tydligare och enklare att använda, och ger tydlig vägledning för produktpositionering och registreringsstrategier för olika företag i branschen. Dessa dokument ger ett ramverk och ledningsbeslut för den vetenskapliga regleringen av medicintekniska produkter för AI. Det är värt att se fram emot att agendan för China Medical Artificial Intelligence Conference, som hölls i Hangzhou den 21–23 december, inrättar ett särskilt forum om digital medicinsk styrning och högkvalitativ utveckling av offentliga sjukhus samt forum för standardisering av industriutveckling inom testning och utvärdering av medicintekniska produkter för artificiell intelligens. Vid den tidpunkten kommer tjänstemän från National Development and Reform Commission och NMPA att delta i mötet och kan komma att släppa ny information.
Slutsats
År 2023 har medicinsk AI börjat integreras i hela den medicinska uppströms- och nedströmsprocessen, vilket omfattar insamling, sammanslagning, analys, diagnos och behandling av sjukhusdata, samt screening i samhället, och organiskt samarbetar med sjukvårdspersonal/sjukdomsbekämpningspersonal, vilket visar potentialen att skapa välbefinnande för människors hälsa. Användbar medicinsk AI-forskning börjar gry. I framtiden beror framstegen för medicinsk AI inte bara på den tekniska utvecklingen i sig, utan kräver också fullt samarbete från industri, universitet och medicinsk forskning samt stöd från beslutsfattare och tillsynsmyndigheter. Detta tvärvetenskapliga samarbete är nyckeln till att uppnå AI-integrerade medicinska tjänster och kommer säkerligen att främja utvecklingen av människors hälsa.
Publiceringstid: 30 december 2023




