Babyer lærer at tale ved at høre andre mennesker - for det meste deres forældre - gentagne gange producere lyde. Langsomt, gennem gentagelse og opdagelse af mønstre, begynder spædbørn at forbinde disse lyde med mening. Gennem en masse øvelse formår de til sidst at producere lignende lyde, som mennesker omkring dem kan forstå.
Maskinelæring Algoritmer fungerer meget på samme måde, men i stedet for at have et par forældre at kopiere fra, bruger de data, møjsommeligt kategoriseret af tusindvis af mennesker, der manuelt skal gennemgå data og fortæl maskinen hvad det betyder.
Denne kedelige og tidskrævende proces er dog ikke det eneste problem med data fra den virkelige verden, der bruges til at træne maskinlæringsalgoritmer.
Tag afsløring af svindel i forsikringsskader. For at en algoritme nøjagtigt skal kunne skelne et tilfælde af svindel ud over legitime påstande, skal den se begge dele. Tusinder og atter tusinder af begge. Og fordi AI systemer er ofte leveret af tredjeparter - så ikke drevet af forsikringsselskabet selv - disse tredjeparter skal have adgang til alle de følsomme data. Du når, hvor det går hen, for det samme gælder for sundhedsjournaler og økonomiske data.
Mere esoterisk, men lige så bekymrende, er alle de algoritmer, der er trænet på tekst, billeder og videoer. Udover spørgsmål om ophavsret, mange skabere har givet udtryk for uenighed med at deres arbejde bliver suget ind i et datasæt for at træne en maskine, der i sidste ende kan tage (en del af) deres job. Og det forudsætter, at deres kreationer ikke er racistiske eller problematiske på andre måder – som igen kan føre til problematiske output.
Hvad hvis der simpelthen ikke er nok data til rådighed til at træne en AI på alle eventualiteter? I en 2016 RAND Corporation rapport, beregnede forfatterne, hvor mange miles, "en flåde på 100 autonome køretøjer, der kører 24 timer i døgnet, 365 dage om året, med en gennemsnitshastighed på 25 miles i timen," ville skulle køre for at vise, at deres fejlrate (hvilket resulterer i dødsfald eller kvæstelser), var pålideligt lavere end hos mennesker. Deres svar? 500 år og 11 milliarder miles.
Du behøver ikke at være et super-hjernet geni for at finde ud af, at den nuværende proces ikke er ideel. Så hvad kan vi gøre? Hvordan kan vi skabe nok, data, der respekterer privatlivets fred, ikke-problematiske, alle-eventualitetsdækkende, præcist mærkede data? Du gættede det: mere AI.
Falske data kan hjælpe AI'er med at håndtere rigtige data
Allerede før RAND-rapporten var det helt klart for virksomheder, der arbejder med autonom kørsel, at de var sørgeligt underudrustet til at indsamle nok data til pålideligt at træne algoritmer til at køre sikkert under alle forhold eller omstændigheder.
Tag Waymo, Alphabets autonome kørselsfirma. I stedet for udelukkende at stole på deres biler fra den virkelige verden, skabte de en fuldstændig simuleret verden, hvor simulerede biler med simulerede sensorer kunne køre rundt i det uendelige og indsamle rigtige data på deres simulerede måde. Ifølge selskabet, i 2020 havde den indsamlet data om 15 milliarder miles af simuleret kørsel - sammenlignet med sølle 20 millioner miles af kørsel i den virkelige verden.
I sprogbrug af AI kaldes dette syntetiske data, eller "data gældende for en given situation, som ikke opnås ved direkte måling," hvis du ønsker at blive teknisk. Eller mindre teknisk: AI'er producerer falske data, så andre AI'er kan lære om den virkelige verden i et hurtigere tempo.
Et eksempel er Opgave2Sim, en AI-model bygget af MIT-IBM Watson AI Lab, der skaber syntetiske data til træningsklassifikatoren. I stedet for at lære klassificereren at genkende et objekt ad gangen, skaber modellen billeder, der kan bruges til at undervise i flere opgaver. Det skalerbarhed af denne type model gør indsamling af data mindre tidskrævende og billigere for datahungrende virksomheder.
Hertil tilføjer Rogerio Feris, en IBM forsker, der var medforfatter til papiret på Task2Sim, sagde,
Skønheden ved syntetiske billeder er, at du kan kontrollere deres parametre - baggrunden, belysningen og den måde, objekter er poseret på.
Takket være alle de bekymringer, der er nævnt ovenfor, er produktionen af alle slags syntetiske data steget i løbet af de sidste par år, med snesevis af startups i feltet, der blomstrer og hente hundredvis af millioner af dollars i investeringer.
De syntetiske data, der genereres, spænder fra 'menneskelige data' som sundheds- eller økonomiske optegnelser til syntetiserede billeder af en bred vifte af menneskelige ansigter - til mere abstrakte datasæt som genomiske data, der efterligner DNA-strukturen.
Sådan laver du virkelig falske data
Der er et par måder, hvorpå denne syntetiske datagenerering sker, hvoraf den mest almindelige og veletablerede kaldes GAN eller generative adversarial networks.
I en GAN bliver to AI'er sat op mod hinanden. Den ene AI producerer et syntetisk datasæt, mens den anden forsøger at fastslå, om de genererede data er ægte. Feedbacken fra sidstnævnte går tilbage i den tidligere 'træning' til at blive mere præcis i at producere overbevisende falske data. Du har sikkert set en af de mange dette-X-eksisterer-ikke websteder - lige fra mennesker til katte til bygninger - som genererer deres billeder baseret på GAN'er.
På det seneste har flere metoder til at producere syntetiske data vundet frem. De første er kendt som diffusionsmodeller, hvor AI'er trænes til at rekonstruere bestemte typer data, mens mere og mere støj - data, der gradvist ødelægger træningsdataene - føjes til de virkelige data. Til sidst kan AI'en tilføres tilfældige data, som den fungerer tilbage til et format, som den oprindeligt blev trænet i.
Falske data er som rigtige data uden, ja, virkeligheden
Syntetiske data, uanset hvordan de produceres, giver en række meget konkrete fordele i forhold til at bruge data fra den virkelige verden. Først og fremmest er det nemmere at samle meget mere af det, fordi du ikke behøver at stole på, at mennesker skaber det. For det andet kommer de syntetiske data perfekt mærket, så der er ingen grund til at stole på arbejdskrævende datacentre til (nogle gange forkert) at mærke data. For det tredje kan det beskytte privatlivets fred og ophavsret, da dataene er syntetiske. Og endelig, og måske vigtigst af alt, kan det reducere skæve resultater.
Med AI, der spiller en stadig større rolle i teknologi og samfund, er forventningerne omkring syntetiske data ret optimistiske. Det har Gartner berømt vurderet 60 % af træningsdata vil være syntetiske data i 2024. Markedsanalytiker Cognilytica værdsatte markedet af syntetisk datagenerering til $110 millioner i 2021 og vokser til $1.15 milliarder i 2027.
Data er blevet kaldt den mest værdifulde vare i den digitale tidsalder. Big tech har siddet på bjerge af brugerdata, der gav den en fordel i forhold til mindre konkurrenter på AI-området. Syntetiske data kan give mindre spillere mulighed for at vende bordet.
Som du måske har mistanke om, er det store spørgsmål vedrørende syntetiske data omkring den såkaldte troskab - eller hvor tæt det matcher data fra den virkelige verden. Juryen er stadig ude om dette, men research synes at vise sig at kombination af syntetiske data med reelle data giver statistisk solide resultater. I år viste forskere fra MIT og MIT-IBM AI Watson Lab, at en billedklassifikator, der var fortrænet på syntetiske data i kombination med rigtige data, udført samt en billedklassifikator trænet udelukkende på rigtige data.
Alt i alt ser syntetiske og virkelige stoplys ud til at være grønne for den nære fremtidige dominans af syntetiske data i træning af privatlivsvenlige og sikrere AI-modeller, og dermed er en mulig fremtid med smartere AI'er for os lige over horisonten .
[…] Technocracy.news [...]
[...] https://www.technocracy.news/training-ai-fake-data-is-cheaper-than-real-data/ [...]
[…] Træning AI: Falske data er billigere end rigtige data […]