Guía de OmegaT: Usar o tokenizer de OmegaT

O complemento tokenizer integrouse en OmegaT na versión 3.0.0. A información que atopará a continuación só se aplica se está empregando unha versión de OmegaT anterior á 3.0.0.
Se estivo usando o complemento tokenizer cunha versión anterior de OmegaT e actualizou á versión 3.0.0 de OmegaT ou unha superior, borre os ficheiros do complemento tokenizer na carpeta do complemento.

O tokenizer de OmegaT é un complemento para OmegaT. Aporta mellores coincidencias parciais e de glosario a OmegaT mediante a computación das palabras raíz. Por exemplo, recoñecerá as palabras flexionadas e mostrará a entrada do glosario correspondente, incluso se a entrada do glosario só contén a palabra sen flexionar.

Preparativos

Antes de empregar o tokenizer con OmegaT, terá que asegurarse de que a súa versión é compatible e está preparada para o seu uso.

Versión Comezo Web: o tokenizer non é compatible con esta versión de OmegaT. Se quere empregar o tokenizer, terá que instalar a versión estándar de OmegaT (a última versión beta) no seu sistema.

Versión 2.1.0 de OmegaT e anteriores: o tokenizer actual non é compatible con estas versións. (É posible empregar o tokenizer coas versións 2.0.X e 2.1.0, pero é necesario empregar unha versión do tokenizer e un método de instalación distintos.) Recomendamos aos usuarios que actualicen OmegaT á última versión beta.

Versións de Windows de OmegaT: para poder empregar o tokenizer en OmegaT, será necesario que o execute dende un ficheiro de script de inicio. Non se inclúe este ficheiro nas versións de OmegaT de Windows. Se está usando a versión de Windows con JRE, descargue o ficheiro OmegaT_with_JRE.bat; pola contra, se está empregando a versión de Windows sen JRE, descargue o ficheiro OmegaT_without_JRE.bat. Unha vez finalice a descarga, sitúe o arquivo no cartafol principal de OmegaT (o cartafol no que se atopa o ficheiro OmegaT.jar).

Versión independente de plataforma (en Windows): localice o ficheiro de script de inicio (OmegaT.bat).

Versións/sistemas Linux: localice o ficheiro de script de inicio (OmegaT ou OmegaT.sh).

Asegúrese de que OmegaT está iniciado antes de executar o ficheiro de script de inicio:
- En Linux, na liña de comandos
- En Windows, facendo clic no ficheiro de script de inicio

Instalar o tokenizer

Despois de preparar a instalación como se indicou nos parágrafos anteriores, poderá instalar o tokenizer seguindo este proceso:

1. Descargue o paquete zip que contén o tokenizer (para a versión 2.1.1 de OmegaT e posteriores).

2. Descomprima os ficheiros do paquete zip que contén o tokenizer.

3. No cartafol principal de OmegaT (o cartafol no que atopará o ficheiro OmegaT.jar), cree un subcartafol chamado «plugins» se non existe xa. Copie directamente neste cartafol os ficheiros que descomprimiu do paquete do tokenizer.

4. Abra o seu ficheiro de script de inicio nun editor de texto. Os usuarios de Windows (en especial): non fagan simplemente dobre clic neste ficheiro. No seu lugar deberán abrir un editor de texto, como Notepad ou Wordpad, e abrir o ficheiro de script de inicio con Ficheiro > Abrir. Tamén poden facer clic co botón dereito do rato no ficheiro e seleccionar o editor de texto co que queren abrilo.

5. O ficheiro de script de inicio contén o comando de inicio de OmegaT. A forma básica deste comando é:

java -jar OmegaT.jar

O comando de inicio pode cambiar dependendo da configuración do seu sistema.

6. Escolla un tokenizer da seguinte lista tendo en conta a súa lingua de orixe:

org.omegat.plugins.tokenizer.LuceneArabicTokenizer
org.omegat.plugins.tokenizer.LuceneBrazilianTokenizer
org.omegat.plugins.tokenizer.LuceneChineseTokenizer
org.omegat.plugins.tokenizer.LuceneCJKTokenizer
org.omegat.plugins.tokenizer.LuceneCzechTokenizer
org.omegat.plugins.tokenizer.LuceneDutchTokenizer
org.omegat.plugins.tokenizer.LuceneFrenchTokenizer
org.omegat.plugins.tokenizer.LuceneGermanTokenizer
org.omegat.plugins.tokenizer.LuceneGreekTokenizer
org.omegat.plugins.tokenizer.LucenePersianTokenizer
org.omegat.plugins.tokenizer.LuceneSmartChineseTokenizer
org.omegat.plugins.tokenizer.LuceneRussianTokenizer
org.omegat.plugins.tokenizer.LuceneThaiTokenizer
org.omegat.plugins.tokenizer.SnowballDanishTokenizer
org.omegat.plugins.tokenizer.SnowballDutchTokenizer
org.omegat.plugins.tokenizer.SnowballEnglishTokenizer
org.omegat.plugins.tokenizer.SnowballFinnishTokenizer
org.omegat.plugins.tokenizer.SnowballFrenchTokenizer
org.omegat.plugins.tokenizer.SnowballGerman2Tokenizer
org.omegat.plugins.tokenizer.SnowballGermanTokenizer
org.omegat.plugins.tokenizer.SnowballHungarianTokenizer
org.omegat.plugins.tokenizer.SnowballItalianTokenizer
org.omegat.plugins.tokenizer.SnowballNorwegianTokenizer
org.omegat.plugins.tokenizer.SnowballPorterTokenizer
org.omegat.plugins.tokenizer.SnowballPortugueseTokenizer
org.omegat.plugins.tokenizer.SnowballRomanianTokenizer
org.omegat.plugins.tokenizer.SnowballRussianTokenizer
org.omegat.plugins.tokenizer.SnowballSpanishTokenizer
org.omegat.plugins.tokenizer.SnowballSwedishTokenizer
org.omegat.plugins.tokenizer.SnowballTurkishTokenizer

Engada o argumento --ITokenizer= seguido do nome completo do tokenizer que escolleu (copiando a liña enteira e engadindo un espazo) ao final do comando de inicio no seu ficheiro de script de inicio de OmegaT.

Por exemplo, para usar o tokenizer Inglés (cando está traducindo do inglés), o seu comando de inicio deberá ser:

java -jar OmegaT.jar %* --ITokenizer=org.omegat.plugins.tokenizer.SnowballEnglishTokenizer

Pola contra, se está traducindo do turco, deberá ser:

java -jar OmegaT.jar %* --ITokenizer=org.omegat.plugins.tokenizer.SnowballTurkishTokenizer

Importante: o comando completo deberá aparecer nunha soa liña (incluso se o programa que usa emprega unha opción de visualización que o mostre en dúas liñas).

7. Execute este ficheiro, e OmegaT debería iniciarse coa función tokenizer. Saberá que está activada se as entradas do glosario se mostran incluso cando o segmento actual de OmegaT contén un termo nunha forma flexionada con respecto a aquela que está presente no glosario.

8. Se quere usar diferentes tokenizers porque traduce dende máis dunha lingua, deberá crear un ficheiro de script de inicio de OmegaT por cada tokenizer que desexe usar. Asigne un nome adecuado aos ficheiros de script de inicio, por exemplo, «OmegaT-EN.bat» para o ficheiro de script de inicio que contén o tokenizer do idioma inglés e «OmegaT-TR.bat» para o ficheiro que contén o comando co tokenizer do idioma turco.

9. Nalgúns casos verá que o tokenizer da lingua de orixe interfire co corrector ortográfico da lingua de destino. Pode evitar este problema especificando un tokenizer para a lingua de destino (cando haxa un dispoñible) empregando o argumento --ITokenizerTarget=.

Por exemplo, se está traducindo do chino ao holandés, probe:

java -jar OmegaT.jar %* --ITokenizer=org.omegat.plugins.tokenizer.LuceneChineseTokenizer --ITokenizerTarget=org.omegat.plugins.tokenizer.LuceneDutchTokenizer

10. Despois de crear un script de inicio tal como se describe nas liñas superiores, poderá configurar o seu sistema para que OmegaT se execute dunha forma máis cómoda, para o cal unha boa solución pode ser un atallo. Para crear un atallo en Windows:

Faga clic co botón dereito do rato no ficheiro de script de inicio (OmegaT.bat). Despois, mantendo o botón dereito do rato premido, arrastre o script ao lugar onde quere crear o atallo, como por exemplo ao escritorio. Cando solte o botón dereito, aparecerá un diálogo con varias opcións. Escolla «Crear un atallo aquí».

Tamén pode facer clic co botón dereito do rato no ficheiro de script de inicio e escoller «Enviar a» e despois «Escritorio (crear atallo)».

Despois de ter creado e probado o atallo, poderá engadilo ao menú Inicio arrastrándoo ata el.

Copyright Marc Prior 2010-2011