Analiza ne podpira trditve, da so posnetki obdelani z umetno inteligenco
V zadnjih dneh se je na Facebooku (profil Maske padajo) pojavilo več posnetkov pogovorov določenih političnih akterjev – povezanih predvsem s stranko Svoboda. Slednja je zatrdila, da so posnetki pogovorov nekdanje generalne sekretarke stranke Vesne Vuković obdelani z umetno inteligenco (UI). Podobno je ocenil generalni sekretariat vlade, infrastrukturno ministrstvo pa je govorilo o ponarejenih in lažnih vsebinah.
Niko Gamulin je njihove navedbe preveril. Dva posnetka je podvrgel devetim neodvisnim forenzičnim testom. »Nisem sodni izvedenec za digitalno forenziko. A za to, da prepoznaš, kaj podatki kažejo, izvedenstvo ni potrebno. Potrebno je le, da podatke dejansko pogledaš,« je zapisal.
Gibanje Svoboda je včeraj zatrdilo, da so objavljeni posnetki obdelani z umetno inteligenco. Generalni sekretariat vlade je govoril o domnevnih nezakonitih prisluhih, očitno prirejenih z uporabo umetne inteligence. Infrastrukturno ministrstvo je govorilo o ponarejenih in lažnih vsebinah.
»Nobena od teh izjav ni bila podprta z ničimer. Ni forenzičnega poročila. Ni identifikacije konkretnega znaka obdelave UI. Ni neodvisne analize. Ni niti navedbe, kateri del posnetka naj bi bil sintetičen,« je opozoril Niko Gamulin, strokovnjak za umetno inteligenco in statistično analizo velikih sistemov. Na Facebook strani Maske padajo se je medtem nabralo še več posnetkov.
Spektralna analiza: 99,9 % energije pod 1.609 Hz. Telefonska kakovost. AI sistemi generirajo širokopasovni avdio do 8-16 kHz. Posnetek nima spektralnega profila sintetičnega govora.…
— Niko Gamulin (@NikoGamulin) March 9, 2026
Kot je zapisal Gamulin, v forenziki trditev brez dokaza ni trditev. Je le izjava za medije. Spomnil je tudi na primer s posnetkom pogovra nekdanjega ministra Andreja Vizjaka in poslovneža Bojana Petana. Šlo je za star posnetek iz leta 2007, Vizjak pa je najprej trdil, da gre za lepljenko.
KPK je takrat izvedla lastno analizo, mediji pa so o tem podrobno poročali. Tokrat – vsaj zaenkrat – analiza ni bila izdelana ali predstavljena, namesto vsebine posnetka pa se izpostavlja predvsem odziv stranke Svoboda oz. vladne strani. Analizo je tako naredil kar Gamulin; skupaj z rezultati je predstavljena v nadaljevanju članka.
Analiza posnetka Vesne Vuković in Tamare Vonta
Prvi posnetek traja tri minute in 45 sekund. Na družbenih omrežjih je bil objavljen kot video z eno statično fotografijo in podnapisi, zvok pa naj bi nastal 19. oktobra 2023. Spektralna analiza kaže, da je skoraj vsa energija posnetka skoncentrirana v zelo ozkem frekvenčnem pasu: 99,9 odstotka signala je pod 1.609 herci, nad 2.000 herci pa ga skoraj ni. Tak profil je značilen za telefonske posnetke, kjer je zvok že na izvoru omejen in dodatno stisnjen s kompresijo, kakršno uporabljajo telefonski kodeki ali aplikacije VoIP.
Za primerjavo: sodobni sistemi za sintezo govora, kot je ElevenLabs, generirajo precej širši frekvenčni razpon – pogosto do več tisoč hercev ali več. V posnetku je zaznaven tudi četrti harmonik omrežne frekvence pri približno 200 hercih, s signalno-šumnim razmerjem okoli 6,2. Takšne sledi električnega omrežja (t. i. ENF) se včasih uporabljajo v zvočni forenziki, saj lahko nakazujejo, da je bil posnetek zajet v realnem prostoru z električno napeljavo.
Analiza ritma govora je v posnetku zaznala 321 premorov. Njihova porazdelitev je zelo neenakomerna: veliko je zelo kratkih premorov, redkeje se pojavijo daljši. Koeficient variacije znaša 1,47, kar kaže na precejšnjo časovno razpršenost govora – vzorec, ki je značilen za spontan pogovor.
Tudi šumno ozadje ni povsem enakomerno. Njegova amplituda se med različnimi deli posnetka spreminja (RMS od 196 do 454), kar ustreza okolju, kjer se zvoki rahlo spreminjajo skozi čas. Pri pregledu posnetka ni bilo zaznanih očitnih znakov montaže: posamezni odseki se ne ponavljajo, prav tako ni nenadnih faznih ali spektralnih preskokov, ki bi kazali na rezanje ali lepljenje zvočnih segmentov.
Analiza posnetka Vesne Vuković in Barbare Kolenko Helbl
Drugi posnetek je krajši, traja minuto in 39 sekund. Objavljen je bil kot video s kolažem dveh fotografij in napisom »Pogovor Vesne Vukovič in Barbare Helbl«. Tudi ta analiza kaže zelo podoben akustični profil kot pri prvem posnetku.
Večina energije zvoka (99,9 odstotka) je zbrana pod približno 2.016 herci, kar ustreza ozkemu frekvenčnemu pasu, značilnemu za telefonski govor. V posnetku je zaznaven tudi signal omrežne frekvence, vendar šibkejši kot v prvem primeru, kar lahko kaže na drugačen prostor ali večjo oddaljenost od električne napeljave.
Ritem govora je po analizi zmeren: koeficient variacije premorov znaša 0,78, kar še vedno sodi v razpon spontanega govora. Pregled zvočnega zapisa ni pokazal ponavljajočih se segmentov ali drugih očitnih znakov montaže. Spektralna slika posnetka je po analizi razmeroma stabilna – povprečno težišče spektra (t. i. centroid) je okoli 938 hercev z odstopanjem približno ± 62 hercev, brez nenadnih preskokov.
Med obema posnetkoma sicer obstajajo razlike: šumno ozadje je v drugem nekoliko močnejše, signal omrežne frekvence šibkejši, frekvenčni razpon pa nekoliko širši. Po oceni analitika so takšne razlike skladne z dvema ločenima pogovoroma, posnetima v različnih prostorih ali ob različnih časih.
»To je ravno nasprotje tistega, kar bi pričakovali pri UI-generaciji: če bi nekdo ustvaril oba posnetka z istim algoritmom, bi bili njuni forenzični profili praviloma podobnejši,« je svojo analizo sklenil Gamulin, ki je doktoriral na področju umetne inteligence.
Noben forenzični kazalnik ne podpira trditve, da so posnetki obdelani z UI
Kot je zapisal Gamulin, je bilo opravljenih devet neodvisnih testov na dveh analiziranih posnetkih. »Noben ne podpira trditve o umetni inteligenci,« je zatrdil in pojasnil, da vsi kažejo na realne telefonske posnetke: ozka pasovna širina, prisotnost omrežne frekvence, naravna variabilnost premorov, spremenljivo šumno ozadje, brez montaže.
Glede omejitev je opozoril, da je bila analiza izvedena na komprimiranih Facebook verzijah posnetkov (AV1 video + HE-AAC avdio), ne na izvornih datotekah. Znano je, da kompresija lahko zakrije nekatere subtilne sledi. Za pravno veljavno analizo bi bil zato potreben izvorni nekomprimiran posnetek in certificiran forenzični laboratorij. ENF-verifikacija (ujemanje z uradno bazo podatkov ENTSO-E za datum 19. 10. 2023) bi po Gamulinovih navedbah zahtevala izvorni posnetek.
Kdo je snemal
Kot je zapisal Gamulin, spektralna analiza omogoča tudi sklepanje o načinu snemanja. Ko ena stran telefonskega pogovora snema svoj klic z zunanjim mikrofonom, ima njen glas širšo pasovno širino (mikrofon ga zajame neposredno), glas sogovornika pa ožjo (pride skozi telefonski kodek). Ta razlika se imenuje near-end/far-end asimetrija in je jasno merljiva.
V obeh posnetkih po njegovi analizi te asimetrije ni. Oba govorca imata identično pasovno širino. Stereo kanala sta popolnoma enaka (korelacija 1,000000 – do šestega decimalnega mesta). Gre za mono signal v stereo ovoju. To po Gamulinovi oceni pomeni, da sta oba govorca šla skozi isti kanal – bodisi kot prestrezanje telefonske linije (wiretap) bodisi kot aplikacija za snemanje klicev na eni od naprav.
Scenarij, po katerem bi ena stran snemala z zunanjim mikrofonom, recimo s telefonom na mizi med pogovorom po zvočniku, je izključen, ker bi v tem primeru prišlo do razlik v pasovni širini in prostorske reverberacije, ki je v posnetkih ni.
Kako se sploh prepozna, ali je posnetek umetno generiran
Gamulin je še pred rezultati svoje analize pojasnil, kaj se pri takšnih preverjanjih sploh išče. Vsak zvočni posnetek namreč vsebuje informacije, ki jih človek ne sliši, instrumenti pa jih zaznajo. Spektralna analiza lahko razkrije strukturo zvoka, ki jo uho presliši.
Posnetek vsebuje razpon frekvenc, ki mu pravimo tudi pasovna širina. Človeški glas pokriva frekvenčni razpon približno od 85 do 8.000 hercev (Hz), pri telefonskem pogovoru pa se ta razpon običajno omeji od približno 300 do 3.400 hercev. Ta pas namreč vsebuje dovolj informacij za razumljiv govor, hkrati pa je varčen z zmogljivostjo omrežja. Kadar govor generira umetna inteligenca, je frekvenčni razpon praviloma širši, pogosto do 8.000 ali celo 16.000 hercev.
»Če posnetek nima energije nad 2.000 hercev, ga s trenutno tehnologijo umetne inteligence ni mogoče ustvariti brez naknadnega filtriranja, ki bi pustilo lastne sledi,« je zapisal Gamulin. Po drugi strani pa je treba opozoriti, da pasovna širina še ni zanesljiv dokaz, da posnetek ni generiran z umetno inteligenco. Model je namreč mogoče trenirati ali nastaviti tudi na t. i. narrowband zvok, ki posnema telefonsko kakovost.
Kot opozarja tudi umetna inteligenca ChatGPT, lahko sodobni sistemi generirajo praktično celoten spekter zvoka. Če bi nekdo želel ustvariti verodostojen ponaredek, pa bi moral poleg tega storiti še precej več: uporabiti glasovni model za obe osebi, napisati naravno zveneč dialog (z mašili in premori), zvok umetno degradirati na telefonsko kakovost, dodati realističen šum okolja in celo simulirati pojav omrežnega bruma.
Omrežna frekvenca (ENF) je po Gamulinovih besedah eden zanimivejših indikatorjev. Povsod, kjer obstaja električna napeljava, je prisoten rahel elektromagnetni brum pri 50 (v Evropi) ali 60 hercih (v ZDA). Ta je običajno prešibek, da bi ga slišali, mikrofon pa ga lahko zajame. »Umetna inteligenca tega bruma ne generira, ker ga ne pozna. Njegova prisotnost v posnetku je eden najmočnejših dokazov, da je bil zvok zajet z mikrofonom v resničnem prostoru,« je zapisal Gamulin.
— Niko Gamulin (@NikoGamulin) March 9, 2026
Tudi tukaj pa obstajajo omejitve. Analitična orodja umetne inteligence opozarjajo, da sam brum še ni dokončen dokaz. Res je sicer, da je izjemno malo verjetno, da bi ga umetna inteligenca ustvarila naključno in v obliki, ki bi zdržala resno forenzično analizo, vendar pa ga lahko v nekaterih primerih povzroči tudi sama elektronika snemalne naprave. Hkrati obstaja veliko povsem avtentičnih posnetkov, kjer bruma sploh ni – na primer pri snemanju na baterijske naprave ali na prostem.
Umetno generiran govor ima enakomeren ritem
Drug indikator je variabilnost premorov v govoru. Ko ljudje govorimo, delamo premore precej nepredvidljivo. Po Gamulinovih besedah ima umetno generiran govor pogosto enakomernejši ritem z nižjim koeficientom variacije premorov. Vendar tudi to pravilo ni absolutno. Sodobni sistemi za sintezo govora so trenirani na velikih zbirkah realnih pogovorov in lahko ustvarjajo precej neenakomerne premore. Starejši sintetizatorji so jih določali predvsem na podlagi ločil v besedilu, današnji modeli pa napovedujejo naslednji del zvoka na podlagi statističnih vzorcev iz resničnega govora.
Gamulin je omenil še več drugih možnih kazalnikov: konsistentnost šumnega ozadja (ali se šum spreminja kot v resničnem okolju), ponavljajoče se vzorce, ki lahko kažejo na kopiranje delov posnetka, nenadne fazne preskoke v valovni obliki ter znake večkratne pretvorbe med zvočnimi formati.
Pri tem se pojavi zanimiv paradoks sodobne tehnologije. Prvi sintetizatorji govora so zveneli izrazito robotsko in jih je bilo razmeroma enostavno prepoznati. Današnji sistemi pa so trenirani prav na kaotičnosti človeškega govora, zato pogosto posnemajo tudi nepravilnosti, ki so nekoč veljale za jasen znak ponaredka. Celoten Gamulinov članek je objavljen na omrežju X.
4 komentarjev
Janez Kepic-Kern, SLOVENIANA
Pomemben in aktualen - zapis.
ORIGINALNOST ALI UMETNA "OBDELANOST" POSNETKA
tel. pogovora - se seveda - da ugotoviti.
Pomembna je tudi
preprosto - POŠTENOST - tistega,
ki preverja - posnetek.
To vemo vsi.
L.r. Janez KK, LJ, oseben zapis.
MEFISTO
Kaj ste hoteli povedati?
Igor Ferluga
Po vsej verjetnosti so ocitno posnetki pristni. Zanimivo, kdo in kako je uspel posneti in s kaksnim namenom predati vulgarne pogovore Vesne Vuković. Vsebina je pa izrazito obremenilna za Svobodo...
To da napadena Svoboda laže, ko vse pripise UI oz konstruktu nasprotnika, ni nič novega. Sicer bi v normalni drzavi bilo toliko slabse za njih, če bi se izkazalo, da je vse res.
Najbolj mizeren ob mainstream ( = provladnih) medijih, ki afero skrivajo ali minimalizirajo, v vsaki normalni drzavi bi bile pa stvar prvovrstnega medijskega zanimanja, preiskovanja in analiz, bo v zadevi izpadel Luka Mesec. Posnetki zaenkrat niso obremenilni ne zanj, ne za njegovo stranko. A Mesec kot papagaj za Golobom ponavlja brez vsakih dokazov, da so posnetki opozicijski sovrazni konstrukt UI. Kaksen mizeren hlapec Goloba!
Ljubljana
Pa dobr, a menda golobom ne verjamete ?
Itak vse povedo po resnici.
Ze 4 leta, pa jih se ne poznate ?
Celo njih pisuni tukaj so obmolknili...
Ni vec honorarjev?
Komentiraj
Za objavo komentarja se morate prijaviti.