|
Bazter utzi dira izen propioak, beste hizkuntzetako hitzak, erratuak, eta abar. Horren ondorioz, EPGn 25,1 milioi testu-hitz baldin badira, egitura honetan 22,7 milioi testu-hitz izan dira erabilitakoak.
|
|
The database has been drawn from the corpus Ereduzko prosa Gaur (EPG). Only common Basque words have been included, that is to say, true Basque lemmas. Leaving out proper names, words in other languages and errors, of the 25.1 million words in this corpus, 22.7 have been included in this database.
|
|
Les données ont été obtenues à partir du corpus Prose de Référence Contemporaine, bien que l'on ait seulement tenu compte des entrées de lexique commun,c'est-à-dire de celles qui constituent de véritables lemmes en basque,sans tenir compte des noms propres,des mots appartenant à d'autres langues,des erreurs,etc.C'est ainsi que, des 25,1 millions de mots de PRC,22,7 millions ont été utilisés dans cette application.
|
|
Los datos se han obtenido a partir del corpus Ereduzko prosa Gaur (EPG), aunque solo se han tenido en cuenta entradas de léxico común, es decir, las que constituyen verdaderos lemas en vasco, sin tener en cuenta los nombres propios, palabras de otros idiomas, errores, etc. De esta forma, de los 25,1 millones de palabras de EPG se han utilizado 22,7 millones en esta aplicación.
|