CommonVoice

Librezale.eustik
Hona jauzi: nabigazioa, bilatu

MozillaCommonVoice-logoa.png

Mozilla Common Voice

Proiektuari buruz

80px-Berdea.png


Zer da Common Voice?

Common Voice, Mozillaren ekimenaren parte da eta bere helburua hizketaren ezagutzaren teknologiak hobeak eta guztientzat irigarriagoak egitea da.

Hizketaren ezagutzaren teknologia, makinekin elkar eragiteko dugun moduan iraultza ekartzen ari da, baina egun erabilgarri dauden sistemak garestiak eta jabedunak dira. Common Voice dohaintzan emandako ahots grabaketa-sorta erraldoia da, edonori ahalbidetu diezaiokeena, potentzialki edozein hizkuntzan, ahotsa erabiltzen duten app-ak modu azkar eta erraz batean trebatzea.

Ez gara ari hizkuntza zabalduenetan bakarrik ahots grabaketak biltzen, baizik eta hiztun gutxiago dituztenetan ere bai. Mota askotako ahotsez osatutako datu-sorta bat argitaratuz, garatzaile, ekintzaile eta komunitateei existitzen den hutsune hori betetzeko ahaldundu nahi ditugu. Common Voice datu-sortaz gain, Deep Speech izena duen hizketaren ezagutza motor libre bat ere sortzen ari gara.

Zergatik da garrantzitsua?

Ahotsa gure artean komunikatzeko dugun modurik naturalena da eta ahots teknologiek gaitasun hori gure ordenagailu eta sakelakoek izatea lortzen ari dira. Garatzaileak hizketaren ezagutza aplikazio txundigarriak sortzeko ahaldundu nahi ditugu, denbora errealeko itzultzaileak edo ahots bidezko asistente digitalak bezala. Baina oraintxe bertan, era honetako app-ak sortzeko behar diren ahots-datuak garestiak eta jabedunak dira. Common Voice datu-sortarekin, berritzaileak izateko eta ahots teknologiak beraien hizkuntzetan eskuragarri jartzeko garatzaileek behar dutena ematea espero dugu.

Galdera eta erantzun gehiago.

Euskarazko datu-sorta

Proiektuaren helburua lortzeko ataza nagusiak:

1. Jabetza publikoan dauden esaldiak bildu (Eginda)
2018-2020 urteetan jabetza publikoan dauden eta berme legal guztiak betetzen dituzten hiru esaldi-sorta biltzea lortu dugu:
  1. CommonVoicerako-esaldiak1-Librezale.txt: 2.317 esaldi.
  2. CommonVoicerako-esaldiak2-Argia.txt: 3.900 esaldi.
  3. CommonVoicerako-esaldiak3-Wikipedia.txt: 55.031 esaldi. (Guztira 61.248 esaldi)
2. Bildutako esaldiak garbitu, berrikusi eta egiaztatu (Eginda)
Honetarako, Sentence Collector deritzon tresna garatzen ari gara.
3. Webgunea euskaratu (Eginda)
Honetarako, Mozillako Pontoon plataforma erabiltzen dugu.
4. Ahots grabaketak egin (Egiten...)
Helburua, hizkuntza bakoitzean 10.000 ordu grabatzea da. Hala ere, Mozillak Deep Speech bitartez sortuko duen Pipsquake motorrak 2.000 ordu baino ez ditu beharko.
Honetarako, webguneko "Hitz egin" aukera erabili. Animatu, oso erraza da!
5. Ahots grabaketak baliozkotu (Egiten...)
Helburua, grabaketa bakoitza bizpahiru pertsonak baliozkotzea da.
Honetarako, webguneko "Entzun" aukera erabili. Animatu, oso erraza da!

Eskerrak

Proiektu hau handia eta konplexua da eta lan desberdinak aurrera ateratzeko hainbaten laguntza jasotzen ari gara, besteak beste, Wikipedia fundazioa eta bere euskal kolaboratzaile guztiak, Argia aldizkaria, iametza, Euskal Herriko Unibertsitateko Ixa taldea, Elhuyar fundazioa, Aholab, Garabide, Bergarako udala, Sasiburu eta abar. Eskerrak beraiei eta baita zuen ahotsarekin Common Voice euskaraz errealitate bihurtzen ari zareten euskaldun guztioi!

Maila internazionalean, goraipatzekoa da munduan zehar dauden Mozillako kide eta lagun guztiek egiten ari diren lan eskerga. Eskerrik asko!

Lotutako orriak

Kanpo estekak