[Librezale] Common Voice estatistikak

Txopi txopi a bildua ikusimakusi.eus
Ost, Uzt 1, 22:23:08, CEST 2020


Kaixo:

Aspaldiko partez, Common Voice proiektuaren datu batzuk emango ditut
hemen. Pasa den astean, datu-sorta deskargagarriak eguneratu dituzte
Mozillakoek eta bistan denez, denon artean euskarazko askoz datu gehiago
biltzea lortu dugu:
  Grabatutako orduak: 129h
  Balioztatutako orduak: *87h*
  Hiztun kopurua: 1.003
  Datuak deskargatu: https://voice.mozilla.org/eu/datasets (3 GB)

Hiztunei buruzko informazio gehiago:
  Azentua:
    % 31, Mendebalekoa
    % 30, Erdialdekoa edo Nafarra
    % 1, Nafar-lapurtarra edo Zuberotarra
  Adina:
    % 39, 19-29 urte
    % 14, 50-59 urte
    % 13, 40-49 urte
    % 7, 30-39 urte
    % 3, < 19 urte baino gutxiago
    % 1, 60 - 69
  Sexua:
    % 50, gizonezkoa
    % 25, emakumezkoa
Datu batzuk ezezagunak dira, laguntzaile batzuek ez dutelako saioa
hasten grabatu aurretik edo ez dutelako beraien profila osatu.

Hizkuntza guztiei dagozkien datuak (Common Voice osoa):
  Hizkuntza kopurua: 54
  Grabatutako orduak: 7.226h
  Balioztatutako orduak: 5.591h

Esparru zehatzerako lehen atalari dagozkien datuak (erantzun sinpleena):
  Hizkuntza kopurua: 18
  Grabatutako orduak: 120h
  Balioztatutako orduak: 64h

Datu-sorta berri honi buruzko informazioa:
https://discourse.mozilla.org/t/common-voice-dataset-release-mid-year-2020/62938

Datu hauek ikusita atera daitezkeen ondorio batzuk:
  1) Iparraldeko jende gehiagok proiektu hau ezagutu eta bere ahotsa
dohaintzan ematera animatu beharko genuke. Bestela, datuen desoreka
horrek eragin dezake motorrak iparraldeko jendea hain ondo ez ulertzea.
  2) Emakumezko gehiago grabatzera animatzea behar genuke. Bestela,
datuen desoreka horrek eragin dezake motorrak emakumezkoak hain ondo ez
ulertzea.
  3) Balioztatutako orduak dezente igo ditzakegu "Entzun" gehiago
erabiltzen badugu. Egin ditugun grabaketen herenak hor daude baina
tamalez balioztatzea falta zaie prest egoteko.

Ondo izan,

-- 
Txopi.
https://ikusimakusi.eus/
PGP public key: http://ikusimakusi.eus/pub/2020/txopi.asc
Fingerprint: 10E6 ED43 704B 2110 7B6E E5AB 6B56 524A 6B14 ACA4


Librezale posta zerrendari buruzko informazio gehiago