La tecnologia avança a un ritme tan vertiginós que, de vegades, la frontera entre l'autèntic i l'artificial es torna gairebé invisible. Fa tot just uns anys, les recreacions digitals o les veus sintètiques resultaven artificials a simple vista (i oïda). Avui, però, n'hi ha prou amb una ullada a Twitter per comprovar com la intel·ligència artificial ha superat aquesta barrera.

L'últim exemple l'ha donat Arnau Font, especialista en IA, que ha encès totes les alarmes amb un missatge senzill però impactant. "Aquest vídeo ha estat generat amb IA. No per generar por, sinó per obrir els ulls".

Deep fakes que semblen reals: el cas del vídeo viral d'Arnau Font

El vídeo de 48 segons compartit per Arnau Font és, en aparença, una peça quotidiana. Hi ha veus en català, rostres naturals, gestos fluids i una conversa que podria formar part de qualsevol reportatge televisiu. Però en realitat, tot ha estat generat per intel·ligència artificial d'última generació, concretament amb VEO3.

La sorpresa per a molts no ha estat només la naturalitat de les veus, sinó també l'expressivitat i el detall dels personatges. És difícil, fins i tot per a un ull entrenat, detectar el truc. El mateix Font insisteix: "La IA pot fer coses increïbles, però també pot confondre si no sabem com funciona".

Aquest avís, més que una advertència apocalíptica, és una invitació a la reflexió col·lectiva. Perquè el veritable desafiament ja no és en el que la IA és capaç de crear, sinó en com la societat s'ha de preparar. No és fàcil distingir el real del fals en un escenari on els vídeos deep fake, la clonació de veus i les simulacions hiperrealistes estan a l'abast de qualsevol.

Com s'ha arribat a aquest punt? Un salt tecnològic sense precedents

Eines com VEO3, Sora d'OpenAI o Stable Video han marcat un abans i un després en la generació de contingut digital. Aquests sistemes no només imiten veus i gestos. Ja són capaços de crear escenes completes, ambients, efectes d'il·luminació i fins i tot emocions gairebé indetectables com a artificials. Qualsevol usuari amb accés a aquestes plataformes pot, en qüestió de minuts, generar clips que podrien enganyar periodistes, autoritats i ciutadans per igual.

Fins fa poc, la majoria d'eines destacaven per la seva precisió en anglès. Tanmateix, la nova generació d'IA s'adapta amb sorprenent fidelitat a llengües com el català, l'espanyol o el francès. Aquest salt idiomàtic multiplica l'amenaça en contextos locals i reforça la necessitat de conscienciació.

El perill real: manipulació, estafes i pèrdua de confiança

La possibilitat de crear deep fakes indistingibles de la realitat obre la porta a múltiples riscos. Des de campanyes de desinformació fins a extorsions amb vídeos manipulats, passant per estafes amb veus clonades que simulen ser familiars, responsables polítics o figures públiques. Els experts en ciberseguretat ja alerten del repunt de fraus basats en la clonació de veu.

A més, la confiança social en la veracitat de les imatges i sons, una pedra angular de la comunicació digital, es veu amenaçada en un entorn on "veure per creure" ja no és suficient.

En l'anàlisi de consum, els usuaris també han d'extremar la cautela. Les marques poden ser víctimes de campanyes de desprestigi amb vídeos manipulats i els mateixos consumidors poden caure en enganys comercials o informatius. El repte, segons Font i altres experts, és dotar la societat d'eines, formació i esperit crític per identificar els senyals d'alerta.

La intel·ligència artificial, ben utilitzada, té el potencial de transformar positivament la vida quotidiana, l'educació i la creativitat digital. Però el seu poder per generar continguts indistingibles de la realitat exigeix una resposta col·lectiva, des de l'alfabetització mediàtica fins a la regulació tecnològica. El futur ja no és només qüestió d'innovació, sinó de responsabilitat compartida.