Les màquines ja llegeixen els llavis millor que les persones

Un equip d’enginyers dissenya un sistema altament fiable per ajudar a persones amb sordesa o millorar les indagacions policials.

Un equip d’investigadors de la Universitat d’Oxford (Regne Unit) i de l’empresa d’intel·ligència artificial DeepMind, adquirida per Google el 2014, han inventat un sistema automàtic de lectura de llavis que, segons sostenen, supera l’eficiència dels professionals dedicats a aquesta activitat i de les anteriors alternatives informàtiques. El model d’aquests científics, que han treballat a partir de milers d’hores d’emissió de la cadena audiovisual pública del seu país, la BBC, es basa en el big data i en les xarxes neuronals profundes, és a dir, en una arquitectura de deep learning.

Les maquines ja llegeixen els llavis millor que les persones

L’objectiu dels autors d’aquest mètode, denominat “Observa, escolta, atén i lletreja”, era reconèixer frases i paraules pronunciades per qualsevol individu, independentment de les seves característiques i sense que importés si la seva intervenció anava acompanyada d’àudio o si es reproduïa per televisió sense so real. Les seves aplicacions, exposades al portal del grup d’enginyeria de la informació, van de la assistència a persones amb problemes de sordesa a la millora de les indagacions policials, passant, és clar, per la col·laboració per als que estan al servei dels mitjans de comunicació.

El mètode, anomenat “Observa, escolta, atén i lletreja”, funciona amb independència de les característiques dels parlants

Quan Joon Són Chung, Andrew Sènior, Oriol Vinyals i Andrew Zisserman van obrir aquesta línia ja eren conscients que l’habilitat de llegir els llavis d’algú mentre parla és molt complexa. Requereix un entrenament intens i constant, i està sotmesa al caprici de factors ambientals, físics, etc. No obstant això, els avanços en la traducció automàtica els brindaven eines que han sabut aprofitar per obtenir un resultat que, al seu entendre, és satisfactori. Ho és fins i tot si no es posseeix cap so que acompanyi la imatge del subjecte que està movent la boca a la pantalla, una dificultat que no han volgut defugir.

Una altra exigència que es van imposar va ser que l’aprenentatge de la màquina havia de ser ràpid. Els subtítols afegits a molts plànols de bustos parlants de la BBC els van ser de gran ajuda. Però, en nombroses ocasions, no es va donar aquesta circumstància. A més, les persones no romanen quietes mentre s’expressen, tenen diferents accents, de vegades apareixen mal il·luminades o se situen lluny de les càmeres … Doncs bé, els investigadors volien que el rendiment de la seva fórmula fos el màxim. I, a jutjar per les conclusions de l’article en el qual donen compte d’això, ho van aconseguir.

Els resultats són satisfactoris fins i tot si no es compta amb sons que acompanyin les imatges dels individus

 

Tots els paràmetres que van fixar els enginyers per validar el seu invent van ser aprovats. De fet, el seu èxit els va situar per davant de la resta d’opcions. En aquest aspecte, la incorporació d’un gran volum de dades a la seva solució va ser d’allò més avantatjosa. Amb la finalitat de comparar mètodes, els científics també van contactar amb un professional amb deu anys d’experiència i un ampli historial en què figuren encàrrecs per als cossos de seguretat i fins un casament reial. El repte consistia a desxifrar una mostra aleatòria de 200 vídeos del conjunt de proves amb unes restriccions notables.

En les mateixes condicions, ell va aconseguir esbrinar una quarta part del total de termes i oracions, mentre que la intel·ligència artificial va arribar a la meitat. Un altre experiment integrat en el projecte va començar amb la locució de centenars de paraules aïllades per mil veus diferents. I va acabar de la mateixa manera: el protocol d’avaluació va confirmar la preeminència del nou sistema.

JOSEP LLUÍS MICÓ – LA VANGUARDIA

Deixa un comentari

Fill in your details below or click an icon to log in:

WordPress.com Logo

Esteu comentant fent servir el compte WordPress.com. Log Out /  Canvia )

Google photo

Esteu comentant fent servir el compte Google. Log Out /  Canvia )

Twitter picture

Esteu comentant fent servir el compte Twitter. Log Out /  Canvia )

Facebook photo

Esteu comentant fent servir el compte Facebook. Log Out /  Canvia )

S'està connectant a %s