|
Esaterako, adarra jo lokuzioaren esanahia ezin da osagaien esanahietatik ondorioztatu, eta itzulpen automatikoko sistema batek jakin behar du konbinazio hori ez duela adar eta jo hitzen ordainen bidez itzuli behar, unitatetzat hartuta baizik (es: tomar el pelo, en: to pull one's leg). Badira beste mota batzuetako HAUak ere, hala nola atentzioa eman eta urratsak egin kolokazioak, non aditzak adiera berezia duen edo ezin den sinonimo batez ordeztu (*urratsak eman).
|
|
The producing of Multi-word Expressions (MWEs) or Lexical Chunks hold the key to automatic language processing. Nowadays, it is widely acknowledged that the functioning of a language cannot be explained solely by means of freely combined individual components (in accordance with the system's rules or 'grammar'), because some language elements used by speakers are, to a certain extent, units built in advance, even though some components are made up of individually built units. For example, the meaning of the expression adarra jo in Basque cannot be deduced from the meaning of the elements, and a machine translation system has to know that this combination cannot translated by means of the equivalents of the words adar (horn) and jo (hit), but as a unit (es: tomar el pelo, en: to pull one’s leg). There are other types of MWEs like the collocations in Basque atentzioa eman (to pay attention) and urratsak egin (to take steps), in which the verb has a special meaning or cannot be substituted by a synonym (*urratsak eman – “to give steps”). These units have to be specified in a lexical database or combinatory dictionary, and, depending on the application, include the necessary information (meaning, translation, lexical restrictions, morphosyntactic properties, etc.).
|
|
Les unités multilingues (UM) et les unités phraséologiques ont une fonction clé dans le traitement automatique de la langue. Aujourd'hui nous acceptons l'idée que le fonctionnement du langage ne peut s'expliquer que par la simple combinaison linéaire (selon al « grammaire » ou les règles du système) d'éléments simples, puisque certains éléments utilisés dans le langage sont une espèce d'unités créées au préalable, c'est-à-dire des unités créées à partir de plusieurs éléments simples. Par exemple, le sens de la locution « adarra jo » ne peut être déduit de la traduction de ses composants, et un système de traduction automatique devrait savoir qu'il est impossible de traduire cette combinaison comme la traduction littérale des mots adar et jo, puisqu'elle doit être comprise comme une unité en soi. (fr: faire marcher quelqu'un, eng : to pull one's leg) Il existe également d'autres types d'UM, comme la locution poser un lapin où le verbe a un sens autre que le sens habituel ou ne peut être remplacé par un synonyme (*mettre un lapin). Ces unités doivent être indiquées dans la base de données lexicale ou le dictionnaire combinatoire et, en fonction de l'application, il faut ajouter les informations nécessaires (son sens, la traduction, les restrictions lexiques, les propriétés morphosyntaxiques...)
|