[Librezale] GAITU - Esaldi bilketa
Txopi
txopi a bildua ikusimakusi.eus
Iga, Abe 17, 17:39:36, CET 2023
23/12/14 16:06(e)an, JLasa , Librezale-en bidez igorleak idatzi zuen:
> Kaixo,
>
> GAITU proiektua bolo-bolo dabilen honetan gai batek ardura sortuarazi
> dit: esaldi bilketa. Mozillak dioenez esaldi bat behin baino gehiagotan
> grabatzea ez da gomendagarria. Jada 580 ordu grabatu dira, hau da, gutxi
> gorabehera 580.000 grabazio egin dira (ordu bat 1000 grabazio direla
> kontsideratuz). Baina prest dauden esaldiak 174.000 baino ez dira. Oker
> ez banago esaldi berriak biltzeko premia dago. Esaldi berriak
> norbanakoak ere sar ditzakela ikusi dut baina ez zait iruditzen lan
> garrantzitsu hori norbanakoen esku uztea ideia ona denik. Esaldiak
> prestatzen norbait badabilen badakizue? Proiektu honetan Eusko
> Jaurlaritza indarrarekin sartu dela ikusita esaldi bilketaren ardura
> bere gain hartzea egokiena iruditzen zait, esaldiak sortzeko dituen
> datu-baseak eta baliabideak beste inork ez dituelako.
Kaixo, Jabier:
Eskerrik asko zure mezuagatik. Talde teknikoaren gomendioa hiztun
bakoitzarentzat dela uste dut, ez hiztun guztientzat. Garai batean
euskaraz 6.000 esaldi genituen eta boluntarioetako batek denak grabatu
zituenean Common Voice webguneak berak ez zion gehiago grabatzen utzi.
Zuk esan bezala, gaur egun 174.000 esaldi ditugu eta ez dut uzte inork
hainbeste grabazio egingo dituenik.
Edonola ere, egia da denon artean zenbat eta ordu gehiago grabatu,
datu-sorta hizkuntza-eredu ahalik onenak sortzeko zenbat eta esaldi
gehiago hobeto. Hemen badago horri buruzko aipamen bat, baina egia
badiotsut ez dut ondo ulertzen:
https://common-voice.github.io/community-playbook/sub_pages/text.html
Kontua da Gaituren olatu honekin 100.000 esaldi gehiago ditugula
irakurtzeko baina baita grabazio askoz gehiago ere. Beraz, nire ustez,
ondo legoke euskara batuan dauden (!) eta jabetza publikoan dauden (!)
esaldi gehiago lortzea. Baina lan zaila da hori. Izan ere, berez
euskaraz ez dira existitzen irizpide horiek betetzen dituzten esaldiak.
Horregatik, CC0 lizentzia ez duten baina lagapenen eta hitzarmenen bidez
CC0 bezala Common Voicen erabiltzea baimendu diren esaldiak dira gaur
egun lortu ditugun gehiengoa.
Oraingo datu-sortako esaldiak nondik datozen:
- 2.317 esaldi Librezaleko kideok bilduak/idatziak.
- 3.900 esaldi Librezalek Argiatik hartuak (gehiago hartzeko aukera egon
liteke).
- 55.031 esaldi Librezalek euskarazko Wikipediatik hartuak.
- 100.000 esaldi inguru Eusko Jaurlaritzak EiTBtik lortuak (ez dakit
kopuru zehatza).
- 13.842 esaldi inguru Common Voiceko webgunean bertan formulario
bitartez denok sartuak (ez dakit kopuru zehatza).
-------------------------
- 175.090 esaldi (hau kopuru zehatza da)
Aipatu ditudan kopuru batzuk hemendik atera ditut (ez denak, Mozillak
tamalez dagoeneko ez omen baitu hau eguneratzen):
https://github.com/common-voice/common-voice/tree/main/server/data/eu
Beraz, laburbilduz, esaldi gehiago behar genituzke, beti datoz ondo. Ez
bakarrik proiektu honetarako baizik eta euskararen inguruan egiten diren
beste garapen eta ikerketa proiektu askotarako ere. Nola lortu?
1) Common Voicek horretarako duen formularioa baliatuz (baina ziurtatu
behar da CC0 lizentzia dutela, askok copyright-a duten esaldiak sartzen
baititu eta besteoi lana eman horiek moderatu eta baztertu behar
ditugulako). Honetan lagundu nahi duzuenok, aurrera!
Esaldiak proposatu: https://commonvoice.mozilla.org/eu/write
Esaldiak berrikusi: https://commonvoice.mozilla.org/eu/review (login)
2) Orain arte bezala karga handiak eginez, baina nik dakidala oraintxe
bertan ez dago aurreikusita inork karga gehiago egiterik eta bide honek
esaldien egilearen artean eta Mozillaren artean hitzarmen bat sinatzea
eskatzen du eta bide burokratikoa eta geldoa da. Norbaitek jorratu nahi
badu primeran!
Ez dakit zure galderak erantzun ote ditudan. Ideiarik edo proposamenik
baduzu, aurrera mesedez.
Eskerrik asko eta ondo izan,
Txopi.
Librezale posta zerrendari buruzko
informazio gehiago