Periodisme cooperatiu per la transformació social
directa.cat
SUBSCRIU-T'HI FES UNA DONACIÓ

Tecnologia de la parla lliure i en català

Comunitats locals han desenvolupat eines de reconeixement i generació de veu basades en el programari lliure, que ofereixen garanties en la privadesa i en l’ús de les dades

| Patricia Cornellana

La tecnologia de la parla pot semblar a primera vista un gadget per als fanàtics de la tecnologia, tanmateix, el seu ús és cada cop més habitual. Es calcula que avui dia la meitat de les cerques a internet ja empren la veu, i en el futur aquesta es convertirà en la principal interfície per controlar les màquines. Hi haurà aplicacions per automatitzar l’ús d’aparells domèstics, sistemes de climatització i il·luminació, traductors automàtics, bots de conversa, subtitulació automàtica, conducció de vehicles, l’ensenyament d’idiomes
i també alguns serveis socials.

A Catalunya, on les grans empreses oferien fins fa poc només serveis de tecnologia de la parla en castellà, les desenvolupadores de programari lliure s’han unit per mitjà de grups de defensa de la llengua, cadascuna amb un interès específic. Unes volen, en primer lloc, garantir l’ús del català en el món digital, i les altres estan interessades a crear alternatives als productes de les grans empreses perquè les usuàries tinguin el control sobre les seves dades. Amb l’ajuda d’una comunitat de voluntàries disposada a gravar i validar mostres de veu s’ha creat un primer prototip d’assistent de veu que és capaç de reconèixer-la, entendre el missatge i generar una resposta amb veu humana en català. El projecte pot ser un primer pas per desenvolupar alternatives lliures en el sector de la veu que tinguin una dimensió col·laborativa, democràtica i de transparència.


El primer assistent en català

Segons Joan Montané de l’associació Softcatalà, que treballa des del voluntariat per la llengua amb les noves tecnologies, tot va començar quan apareixien els primers assistents de veu com Alexa, d’Android; Siri, d’Apple, o Google Assistant que només funcionaven amb els idiomes majoritaris. “Vam provar de desenvolupar el mateix producte pel català, i el codi lliure era la millor garantia per tenir èxit a llarg termini”. Montané argumenta que el programari que no és privatiu permet una evolució contínua del producte: qualsevol pot utilitzar la feina feta per adaptar-la i millorar-la, sempre garantint un control sobre les dades. El resultat provisional es diu assistent.cat i és el primer en català. És una prova de concepte que encara no té aplicacions pràctiques per les usuàries, però posa els fonaments d’aquesta tecnologia en versió lliure.

La primera peça de l’assistent de veu és el motor de reconeixement: un programari capaç de reconèixer veus molt diferents amb accents de tot el territori, per transformar-les en text escrit. El programari per aquesta tasca era disponible en una versió lliure, però calia preparar-lo pel català i entrenar-ho amb moltes mostres de veu. Gràcies a una comunitat de voluntaris molt activa, que ara com ara ha gravat més de 900 hores de veu, s’ha pogut crear un motor de reconeixement d’una qualitat considerable. També les dades de les sessions del parlament amb els registres de veu i les transcripcions van ser utilitzades per entrenar el programa.

L’equip de la cooperativa Col·lectivaT ha creat un motor de síntesi de la parla, amb investigadors de la UPC i la UPF

A part de crear la tecnologia de reconeixement de veu, l’equip de la cooperativa Col·lectivaT ha creat un motor de síntesi de la parla, juntament amb investigadors de la UPC i la Universitat Pompeu Fabra. Es diu Catotron: un software capaç de llegir un text escrit amb veu humana. Gràcies a l’ús de la tecnologia anomenada d’“aprenentatge profund” amb xarxes neuronals, la veu sona molt més natural i menys robòtica en comparació amb tecnologies anteriors.

L’actual prototip, assistent.cat, incorpora aquestes dues tecnologies i té certa intel·ligència per entendre el significat de les frases i així generar una resposta. La qualitat de la resposta encara és limitada, ja que depèn bàsicament dels guions que s’han programat per cada situació. El prototip és capaç de dir quin temps farà demà, però preguntes menys previsibles es queden sense resposta.


Projecte de comunitat

Joan Montané, de Softcatalà, destaca que el català sempre ha necessitat el suport ciutadà per avançar i per mantenir-se com a llengua d’ús preferent a internet. Per això sovint fan crides a la participació, per exemple, per mitjà de Common Voice, un projecte col·laboratiu iniciat per la fundació Mozilla per crear una base de dades lliure amb mostres de veu. Les voluntàries poden contribuir des de casa quan tenen un moment lliure: llegint fragments de text o revisant la qualitat dels talls que s’han enregistrat. D’aquesta manera, es crea un conjunt de dades que està disponible públicament i que pot fer servir el programari de reconeixement de la parla.

Les voluntàries poden contribuir des de casa llegint fragments de text o revisant la qualitat dels talls que s’han enregistrat

Tot i que el català és la cinquena llengua del món en relació amb el suport ciutadà voluntari, en aquesta base de dades hi ha infrarepresentació de les veus de joves, dones i parlants de varietats lingüístiques diferents del català central. Per atraure un públic més variat, Softcatalà també organitza trobades en format de hackató, que creen més comunitat
i complicitat, i connecten programadores, lingüistes i voluntàries.

 

La feina comunitària no només genera valor per la comunitat d’usuàries, sinó que també visibilitza i assenyala una demanda per l’ús del català. “Les empreses veuen que hi ha un mercat i una activitat de la comunitat que està generant aquestes tecnologies alternatives i lliures. És una manera indirecta per empènyer-les a desenvolupar productes en català”, explica Montané.


Oportunitats per l’Economia Social i Solidària

Baybars Külebi, enginyer de dades a Col·lectivaT i responsable per la part tecnològica del projecte, creu que “el repte que tenim és que no hi ha productes de programari lliure que estiguin acabats pel mercat de consumidores. Ens cal un sistema de distribució”. La comunitat pot desenvolupar el programari i mantenir-lo, però no té la capacitat de vendre productes acabats. Per això, cal comptar amb entitats privades, empreses o cooperatives, que puguin aprofitar aquestes tecnologies lliures per desenvolupar productes pel mercat català. Külebi considera que l’aplicació de la tecnologia de veu està en una fase d’experimentació i veu encara lluny el moment d’integrar el programari lliure en productes complexos, com podria ser la climatització d’una casa, ja requereix tenir en compte tot un ecosistema de diferents tecnologies.

Es podria crear un seguit de serveis per persones amb discapacitat motrius o visuals, en l’àmbit educatiu o per a gent gran

No obstant això, ja hi ha solucions més senzilles. Una empresa que produeix ventiladors, per exemple, podria utilitzar el programari lliure per substituir els botons per comandos de veu. L’enginyer creu que també es presenten oportunitats per les entitats de l’Economia Social i Solidària per oferir serveis que garanteixin respecte per la privadesa i control sobre les dades. Es podria crear un seguit de serveis per persones amb discapacitat motrius o visuals, en l’àmbit educatiu o per gent gran.


Enfront dels gegants, iniciatives comunitàries

Però també en aquest sector es fan visibles les desigualtats entre els gegants d’internet i els projectes de programari lliure. El professor Ignasi Esquerra, de la UPC, que porta tota la carrera dedicada a les tecnologies de la parla, recorda que en la fase pionera hi havia una investigació bàsica a les universitats per iniciar aquesta nova tecnologia, però empreses com Google, Microsoft, IBM i altres han anat assumint un rol cada vegada més rellevant. “Tenen molts més recursos per innovar; tant per contractar investigadors, desplegar servidors més potents, com per disposar de quantitats de dades molt més grans”, ens explica. Aquesta diferència de capacitats portarà inevitablement a una diferència entre la tecnologia lliure i la privada.

La qualitat del programari de reconeixement de veu i de síntesi de veu en català està al mateix nivell del de les grans llengües

Amb tot, precisament perquè el mercat de les llengües minoritàries no és prou interessant per invertir-hi les darreres tecnologies, hi ha un incentiu per desenvolupar iniciatives comunitàries de programari lliure. En aquest moment, la qualitat del programari de reconeixement de veu i de síntesi de veu en català està al mateix nivell del de les grans llengües, i això es deu a la comunitat tan activa en la llengua catalana, tant en la part del desenvolupament informàtic com en la del voluntariat de la llengua.

Article publicat al número 534 publicación número 534 de la Directa

Donacions

Fes una donació

FES UN DONATIU