At højden af den kolde krig, i vinteren af 1980, registrerede FBI-agenter et telefonopkald, hvor en mand arrangerede et hemmeligt møde med den sovjetiske ambassade i Washington, DC. På dagen for hans udnævnelse var agenter imidlertid ikke i stand til at se synet på mand der kommer ind i ambassaden. På det tidspunkt havde de ingen måde at give et navn til den, der ringer, ud fra lyden af hans stemme, så spionen var anonym. I løbet af de næste fem år solgte han detaljer om flere hemmelige amerikanske programmer til Sovjetunionen.
Det var først 1985, at FBI takket være efterretning fra en russisk afhopper var i stand til at etablere den, der ringer, som Ronald Pelton, en tidligere analytiker ved National Security Agency. Det næste år blev Pelton dømt for spionage.
I dag ville FBI- og NSA-agenter have identificeret Pelton inden for sekunder efter hans første opfordring til sovjeterne. EN klassificeret NSA-memo fra januar 2006 beskriver NSA-analytikere ved hjælp af en "teknologi, der identificerer folk ved lyden af deres stemmer" for at matche gamle lydfiler af Pelton med hinanden. "Havde sådanne teknologier været tilgængelige for tyve år siden," sagde memoet, "tidlig opdagelse og frygt kunne have været mulig, hvilket reducerede den betydelige skade, Pelton har forvoldt den nationale sikkerhed."
Disse og andre klassificerede dokumenter leveret af den tidligere NSA-entreprenør Edward Snowden afslører, at NSA har udviklet teknologi ikke kun til at optage og transkribere private samtaler, men automatisk identificere talerne.
Amerikanere støder mest regelmæssigt på denne teknologi, kendt som højttalergenkendelse, eller højttaleridentifikation, når de vågner op Amazons Alexa eller ringer til deres bank. Men et årti før stemme-kommandoer som “Hello Siri” og “OK Google” blev almindelige husholdningsfraser, brugte NSA højttalergenkendelse til at overvåge terrorister, politikere, narkotikherrer, spioner og endda agenturansatte.
Teknologien fungerer ved at analysere de fysiske og adfærdsmæssige egenskaber, der gør hver persons stemme karakteristisk, såsom tonehøjden, mundens form og længden på strubehovedet. En algoritme opretter derefter en dynamisk computermodel af individets vokale egenskaber. Dette er, hvad der populært benævnes en "stemmeaftryk." Hele processen - at fange et par talte ord, omdanne disse ord til en stemmeprint og sammenligne denne repræsentation med andre "stemmestyrke", der allerede er gemt i databasen - kan ske næsten øjeblikkeligt. Selvom det er kendt, at NSA er afhængig af finger- og ansigtsaftryk for at identificere mål, er stemmeaftryk ifølge et 2008-agentursdokument “hvor NSA hersker overordnet.”
Det er ikke svært at se hvorfor. Ved at aflytte og optage millioner af oversøiske telefonsamtaler, videotelkonferencer og internetopkald - ud over at fange, med eller uden warrants, amerikanernes indenlandske samtaler - har NSA opbygget en uovertruffen samling af forskellige stemmer. Dokumenter fra Snowden-arkivet afslører, at analytikere fodret nogle af disse optagelser til højttalergenkendelsesalgoritmer, der kunne forbinde enkeltpersoner til deres tidligere ytringer, selv når de havde brugt ukendte telefonnumre, hemmelige kodeord eller flere sprog.
Så tidligt som Operation Iraqi Freedom, analytikere brugte højttalergenkendelse for at bekræfte, at lyden, der "syntes at være af afskaffet leder Saddam Hussein, faktisk var hans, i modsætning til den fremherskende tro." Notater viser endvidere, at NSA-analytikere skabte stemmeretninger til Osama bin Laden, hvis stemme var "umiskendelig og bemærkelsesværdigt konsistent på tværs af flere transmissioner ; ”For Ayman al-Zawahri, Al Qaidas nuværende leder; og for Abu Musab al-Zarqawi, derefter gruppens tredje kommandant. De brugte Zarqawis stemmeprint til at identificere ham som højttaleren i lydfiler, der blev sendt online.
De klassificerede dokumenter, der stammer fra 2004 til 2012, viser NSA forfinede stadig mere sofistikerede iterationer af sin højttalergenkendelsesteknologi. De bekræfter brugen af højttalergenkendelse i bekæmpelse af terrorisme og oversøiske narkotikabuster. Og de foreslår, at agenturet planlagde at implementere teknologien ikke kun for at retroaktivt identificere spioner som Pelton, men for at forhindre varslere som Snowden.
Lytter altid
Civilfrihedseksperter er bange for, at disse og andre udvidende anvendelser af højttaleranerkendelse indebærer retten til privatliv. ”Dette skaber en ny efterretningsevne og en ny evne til misbrug,” forklarede Timothy Edgar, en tidligere rådgiver for Det Hvide Hus for direktøren for National Intelligence. ”Vores stemme rejser på tværs af alle slags kommunikationskanaler, hvor vi ikke er der. I en tidsalder med masseovervågning har denne form for kapacitet store konsekvenser for alt vores privatliv. ”
Edgar og andre eksperter påpegede den relativt stabile karakter af den menneskelige stemme, som er langt sværere at ændre eller forklæde sig end et navn, adresse, adgangskode, telefonnummer eller PIN-kode. Dette gør det “langt lettere” at spore mennesker, ifølge Jamie Williams, en advokat hos Electronic Frontier Foundation. ”Så snart du kan identificere nogens stemme,” sagde hun, “kan du straks finde dem, når de har en samtale, forudsat at du optager eller lytter til den.”
Stemmen er en unik og let tilgængelig biometrisk: I modsætning til DNA kan den indsamles passivt og langt væk uden emnets viden eller samtykke. Nøjagtigheden varierer betydeligt afhængigt af, hvor tæt betingelserne for den indsamlede stemme stemmer overens med tidligere optagelser. Men i kontrollerede indstillinger - med lav baggrundsstøj, et velkendt akustisk miljø og god signalkvalitet - kan teknologien bruge et par talte sætninger til nøjagtigt at matche enkeltpersoner. Og jo flere prøver af en given stemme, der føres ind i computerens model, jo stærkere og mere "moden" bliver den model.