[Librezale] GAITU - Esaldi bilketa

Txopi txopi a bildua ikusimakusi.eus
Iga, Abe 17, 17:39:36, CET 2023


23/12/14 16:06(e)an, JLasa , Librezale-en bidez igorleak idatzi zuen:
> Kaixo,
> 
> GAITU proiektua bolo-bolo dabilen honetan gai batek ardura sortuarazi 
> dit: esaldi bilketa. Mozillak dioenez esaldi bat behin baino gehiagotan 
> grabatzea ez da gomendagarria. Jada 580 ordu grabatu dira, hau da, gutxi 
> gorabehera 580.000 grabazio egin dira (ordu bat 1000 grabazio direla 
> kontsideratuz). Baina prest dauden esaldiak 174.000 baino ez dira. Oker 
> ez banago esaldi berriak biltzeko premia dago. Esaldi berriak 
> norbanakoak ere sar ditzakela ikusi dut baina ez zait iruditzen lan 
> garrantzitsu hori norbanakoen esku uztea ideia ona denik. Esaldiak 
> prestatzen norbait badabilen badakizue? Proiektu honetan Eusko 
> Jaurlaritza indarrarekin sartu dela ikusita esaldi bilketaren ardura 
> bere gain hartzea egokiena iruditzen zait, esaldiak sortzeko dituen 
> datu-baseak eta baliabideak beste inork ez dituelako.

Kaixo, Jabier:

Eskerrik asko zure mezuagatik. Talde teknikoaren gomendioa hiztun 
bakoitzarentzat dela uste dut, ez hiztun guztientzat. Garai batean 
euskaraz 6.000 esaldi genituen eta boluntarioetako batek denak grabatu 
zituenean Common Voice webguneak berak ez zion gehiago grabatzen utzi.

Zuk esan bezala, gaur egun 174.000 esaldi ditugu eta ez dut uzte inork 
hainbeste grabazio egingo dituenik.

Edonola ere, egia da denon artean zenbat eta ordu gehiago grabatu, 
datu-sorta hizkuntza-eredu ahalik onenak sortzeko zenbat eta esaldi 
gehiago hobeto. Hemen badago horri buruzko aipamen bat, baina egia 
badiotsut ez dut ondo ulertzen:
https://common-voice.github.io/community-playbook/sub_pages/text.html

Kontua da Gaituren olatu honekin 100.000 esaldi gehiago ditugula 
irakurtzeko baina baita grabazio askoz gehiago ere. Beraz, nire ustez, 
ondo legoke euskara batuan dauden (!) eta jabetza publikoan dauden (!) 
esaldi gehiago lortzea. Baina lan zaila da hori. Izan ere, berez 
euskaraz ez dira existitzen irizpide horiek betetzen dituzten esaldiak. 
Horregatik, CC0 lizentzia ez duten baina lagapenen eta hitzarmenen bidez 
CC0 bezala Common Voicen erabiltzea baimendu diren esaldiak dira gaur 
egun lortu ditugun gehiengoa.


Oraingo datu-sortako esaldiak nondik datozen:
- 2.317 esaldi Librezaleko kideok bilduak/idatziak.
- 3.900 esaldi Librezalek Argiatik hartuak (gehiago hartzeko aukera egon 
liteke).
- 55.031 esaldi Librezalek euskarazko Wikipediatik hartuak.
- 100.000 esaldi inguru Eusko Jaurlaritzak EiTBtik lortuak (ez dakit 
kopuru zehatza).
- 13.842 esaldi inguru Common Voiceko webgunean bertan formulario 
bitartez denok sartuak (ez dakit kopuru zehatza).
-------------------------
- 175.090 esaldi (hau kopuru zehatza da)

Aipatu ditudan kopuru batzuk hemendik atera ditut (ez denak, Mozillak 
tamalez dagoeneko ez omen baitu hau eguneratzen):
https://github.com/common-voice/common-voice/tree/main/server/data/eu

Beraz, laburbilduz, esaldi gehiago behar genituzke, beti datoz ondo. Ez 
bakarrik proiektu honetarako baizik eta euskararen inguruan egiten diren 
beste garapen eta ikerketa proiektu askotarako ere. Nola lortu?

1) Common Voicek horretarako duen formularioa baliatuz (baina ziurtatu 
behar da CC0 lizentzia dutela, askok copyright-a duten esaldiak sartzen 
baititu eta besteoi lana eman horiek moderatu eta baztertu behar 
ditugulako). Honetan lagundu nahi duzuenok, aurrera!
Esaldiak proposatu: https://commonvoice.mozilla.org/eu/write
Esaldiak berrikusi: https://commonvoice.mozilla.org/eu/review (login)

2) Orain arte bezala karga handiak eginez, baina nik dakidala oraintxe 
bertan ez dago aurreikusita inork karga gehiago egiterik eta bide honek 
esaldien egilearen artean eta Mozillaren artean hitzarmen bat sinatzea 
eskatzen du eta bide burokratikoa eta geldoa da. Norbaitek jorratu nahi 
badu primeran!

Ez dakit zure galderak erantzun ote ditudan. Ideiarik edo proposamenik 
baduzu, aurrera mesedez.

Eskerrik asko eta ondo izan,
Txopi.


Librezale posta zerrendari buruzko informazio gehiago