HOWTO: compatibiliteit van OmegaTDeze HOWTO beschrijft de compatibiliteit van OmegaT met andere softwareproducten.
Omdat het de standaardprocedure voor professionele vertalers is om teksten in digitale vorm te ontvangen en af te leveren, zijn gebruikers van OmegaT bij nature geïnteresseerd in de compatibiliteit er van met andere softwareproducten. Deze HOWTO richt zich op het verschaffen van informatie op dit gebied.
Een algemene observatie: "compatibiliteit" is zelden zwart en wit, "ja" of "nee". Waar de verkoper van een softwareproduct claimt dat zijn product compatibel is met een ander stukje software, is deze compatibiliteit zelden 100%. Tegengesteld daaraan, waar producten duidelijk niet direct compatibel zijn, is het vaak mogelijk om procedures te vinden waardoor zij wel samen kunnen werken. De vraag die moet worden beantwoord is of deze procedures acceptabel zijn in termen van resultaat en de te leveren inspanningen, en het antwoord zal zeker verschillen van de ene gebruiker naar de andere. Met andere woorden: "compatibiliteit" gaat niet alleen over producten, maar ook over werkstromen.
OmegaT werkt op elk besturingssysteem waarop een geschikte versie van de Runtime Environment (JRE) kan worden uitgevoerd. Op dit moment zijn dat alle versies van Microsoft Windows vanaf Windows 98 en hoger, Mac OS X, en de meeste Linux-distributies.
kijk in de gebruikershandleiding van OmegaT voor een recente lijst van alle ondersteunde bestandsindelingen. De lijst hieronder is geen volledige lijst van alle bestandsindelingen die worden ondersteund door OmegaT, maar is beperkt to die welke in het bijzonder interessant zijn voor gewone gebruikers.
OpenOffice.org; Open Document Format; Star Office; OpenOffice.org Writer; OpenOffice.org Calc; OpenOffice.org Impress; NeoOffice:
Deze bestandsindelingen zijn het equivalent van de indelingen van Microsoft Office. Open Document Format is een internationale standaard en heeft de gebonden (maar open) StarOffice-bestandsindeling vervangen; dit zijn in feite twee verschillende maar zeer op elkaar gelijkende bestandsindelingen. NeoOffice is de naam van de OpenOffice.org versie voor Mac OS X. OmegaT heeft bestandsfilters voor zowel Open Document Format als voor de Star Office-indeling die het verving. Deze bestandsfilters zijn excellent, en het gevaar van beschadiging van de opmaak van een OpenOffice.org-, Star Office-, etc. bestand gedurende de vertaling in OmegaT is extreem laag.
HTML; XHTML:
HTML en XHTML, zijn XML equivalent, zijn de meest algemene bestandsindelingen voor webpagina's. Opnieuw heeft OmegaT excellente bestandsfilters voor beide. Net als OpenOffice.org-bestanden, kunnen deze bestandsindelingen worden vertaald in OmegaT met heel weinig risico voor corruptie. Het is het echter waard om de filterinstellingen aan te passen voor optimale resultaten.
Microsoft Office 97-2003 (Microsoft Word/Excel/Powerpoint 2003):
Deze bestandsindelingen zijn gebonden, binair, en tot voor kort niet openbaar gedocumenteerd, allemaal karakteristieken die het bijzonder moeilijk maken om ze af te handelen binnen een CAT-programma.
Sommige CAT-programma's lossen dit probleem op, tenminste voor MS Word, door binnen Word zelf te werken; de meeste andere CAT-programma's converteren naar RTF en terug, vaak onzichtbaar voor de vertaler.
OmegaT ondersteund deze indelingen niet direct. In plaats daarvan is voor de vertaler de standaard procedure voor het werken met OmegaT om ze handmatig te converteren naar de OpenOffice.org-indeling.
De kwaliteit van het conversieproces is in het algemeen heel goed, de conversie voor Word en Excel is beter dan die voor Powerpoint. meningen verschillen of de kwaliteit van de conversie voldoende is voor professionele vertaaldoeleinden, maar het is zeker waard om op te merken dat CAT-programma's die de indruk wekken de Microsoft Office-bestanden direct af te handelen, regelmatig opmaakverlies of corruptie veroorzaken, of door het invoegen van nieuwe opmaak die gerelateerd is aan het vertaalproces, of door het heen en terug converteren naar RTF (een proces dat ook niet zonder verlies is). Met andere woorden: OmegaT is niet anders dan andere CAT-programma's in het converteren van Microsoft Office-bestanden naar een andere indeling en terug.
Gebruikers wordt geadviseerd om het proces voor hen zelf te testen, het liefst op bestanden met complexe opmaak. Het is belangrijk om op te merken dat de kwaliteit van de conversie refereert aan conversie in beide zijden (waarnaar verwezen als "roundtripping"). Een Microsoft Word-bestand kan heel verschillend worden weergegeven in OpenOffice.org als het is geconverteerd naar die laatste indeling, zelfs als de structuur is behouden en de opmaak niet op enigerlei wijze is gewijzigd of beschadigd.
Sommige gebruikers van OmegaT hebben helemaal afscheid genomen van Microsoft Office; anderen gebruiken het alleen om de meest zwaar opgemaakte documenten te controleren. Sommige van de conversie-problemen tussen Microsoft Office- en OpenOffice.org-bestanden zijn bekend: bijvoorbeeld: het veld "paginanummering" in Microsoft Word gaat verloren na de conversie naar OpenOffice.org en terug, maar het kan opnieuw worden ingevoegd na de conversie terug naar de Microsoft Word-indeling.
Een wijdverbreid misverstand is dat OpenOffice.org slechts relatief eenvoudige Microsoft Office-opmaak kan afhandelen, maar dat is niet het geval. Zelfs complexe opmaakmogelijkheden, zoals stijlen en bijgehouden wijzigingen, worden opgeslagen en behouden als het bestand terug wordt geconverteerd naar Microsoft Office. Een veel groter en meer algemeen probleem dan "complexe opmaak" is in feite "slechte opmaak", in het bijzonder als de auteur de tekst "op het oog" (bijvoorbeeld door spaties of meerdere tabs te gebruiken voor inspringen) heeft opgemaakt, in plaats van door een goede structuur te gebruiken.
RTF (Rich Text Format):
RTF is structureel geheel verschillend van de Microsoft Office 98-2003-bestandsindeling, maar met betrekking tot OmegaT is hetzelfde van toepassing: het wordt niet direct ondersteund, en de standaard procedure is om te converteren naar OpenOffice.org en terug.
Microsoft Office 2007 (Word, Excel, PowerPoint 2007); Office Open XML:
De Microsoft Office 2007-bestandsindeling (ook bekend als Office Open XML) is radicaal anders dan de Office 97-2003-indelingen. In feite lijkt de structuur zeer veel op die van OpenOffice.org-bestanden: het bestaat uit een zip-archief dat meerdere bestanden bevat, en de bestanden die de tekst bevatten zijn gebaseerd op de XML-standaard. Dit maakt het in principe voor CAT-programma's veel eenvoudiger om het te ondersteunen en het direct te bewerken.
OmegaT heeft een toegewezen filter voor Microsoft Office 2007-bestanden. Op het moment van schrijven is dat filter echter nog in het prille stadium van ontwikkeling en heeft een groot nadeel: het resulteert in het weergeven van hele grote aantallen tags. Dit nadeel moet worden afgewogen tegen de eliminatie van het risico van beschadigingen aan het bestand tijdens de vertaling, omdat een conversie niet vereist is en OmegaT het bestand direct bewerkt.
Een alternatieve, en in de meeste gevallen te preferen, procedure op dit moment is om Microsoft Office 2007-bestanden te converteren naar OpenDocument Format (OpenOffice.org) en terug, op dezelfde manier als de vroegere Microsoft Office 97-2003-indelingen. Er zijn verschillende manieren om dit te doen, ofwel direct (vanuit Office Open XML naar OpenDocument Format), of indirect via Microsoft Office 97-2003-indeling:
1. In Microsoft Office 2007, conversie naar Microsoft Office 98-2003-indeling (gevolgd door conversie in OpenOffice.org naar OpenDocument Format).
2. Voor gebruikers van Microsoft Office die de 2007-versie (nog) niet hebben, conversie tussen Office Open XML en Microsoft Office 98-2003 kan worden gedaan door middel van een gratis plug-in converter van Microsoft, hier beschikbaar. Deze converter is beschikbaar voor Windows en Mac.
3. Office Open XML kan rechtstreeks naar Open Document Format worden geconverteerd en terug door midedel van de ODF-converter, hier beschikbaar. Dit gereedschap vereist een versie van MS Office (XP/2003/2008).
4. Mac OS X-gebruikers kunnen direct van Office Open XML naar OpenDocument Format en terug converteren in NeoOffice.
5. Linux-gebruikers kunnen deze versie van de zelfstandige conversie-gereedschap gebruiken om direct te converteren tussen Office Open XML en OpenDocument Format.
6. De huidige versie van OpenOffice.org (3.0.x) is in staat om Microsoft Office 2007-bestanden te importeren en ze te converteren naar OpenOffice.org-indeling, maar niet om ze terug te converteren. Het kan ze natuurlijk terug converteren naar de Microsoft Office 97-2003-indelingen; omdat deze kunnen worden gelezen door Microsoft Office 2007, zou deze procedure acceptabel kunnen zijn voor gebruikers die dat laatste gebruiken.
Er bestaat een internationale standaard voor vertaalgeheugens: TMX, of Translation Memory eXchange. Het is breed geadopteerd en wordt ondersteund door bijna alle huidige CAT-programma's.
De TMX-standaard bestaat zowel in verschillende versies als in verschillende niveaus. Het onderscheid is belangrijk om redenen van compatibiliteit. De standaard ondergaat nog steeds ontwikkelingen; dat is waar de verschillende versies naar verwijzen. De niveaus verwijzen naar de opmaak-informatie die is opgenomen in het TMX-bestand:
Niveau 1 TMX-bestanden bevatten geen opmaak-informatie.
Niveau 2 TMX-bestanden bevatten opmaak-informatie, maar deze bestanden zijn in het algemeen slechts compatibel als hetzelfde CAT-programma wordt gebruikt. Met andere woorden: als een OmegaT-gebruiker een 100%-overeenkomst vindt in een Niveau 2 OmegaT TMX-bestand, can die worden geaccepteerd zonder dat aanpassingen nodig zijn, maar hetzelfde zou niet waar hoeven te zijn voor een Niveau 2 TMX-bestand dat is gemaakt met een ander CAT-programma (of vice-versa). Dit heeft repercussies voor werkstromen waarin gebruikers van CAT-programma's (typische klanten) verwachten bestanden van vertaalgeheugens te ontvangen en dat 100%-overeenkomsten automatisch worden ingevoegd.
Niveau 3 TMX-bestanden bevatten opmaak-informatie in een vorm die kan worden gelezen door andere CAT-programma's. Ondersteuning voor Niveau 3 in CAT-programma's is bijzonder.
Bepaalde andere CAT-programma's (zoals TRADOS) zijn in staat om verschillende TMX-bestanden in verschillende versies te exporteren. OmegaT ondersteunt alle huidige versies van TMX, maar levert waarschijnlijk de beste resultaten voor overeenkomsten als het TMX-bestand van de versie 1.4b is.
Gereedschappen die andere verschillende niveaus van TMX-bestanden ondersteunen zijn in principe nog steeds compatibel met elkaar. De opmaak-informatie die is opgenomen in de hogere niveaus zal zonder betekenis zijn voor het "andere" programma, maar de tekstuele informatie kan nog steeds worden bekeken, fuzzy-overeenkomsten gevonden, etc.
OmegaT gebruikt de internationale TMX standaard als zijn eigen indeling voor vertaalgeheugens. Sommige CAT-programma's hebben nog steeds toegewezen gebonden indelingen voor vertaalgeheugens, maar ondersteunen virtueel allemaal de import en export van TMX-bestanden. In de praktijk is het daarom voor vertalers mogelijk om vertaalgeheugens te leveren aan klanten en vice-versa, en voor de ontvanger om deze bestanden te gebruiken als onmiddellijke of toekomstige verwijzing; als de bestanden echter moeten worden gebruikt binnen een geautomatiseerde werkstroom, dan is de hierboven beschreven beperking van toepassing.
Verdere opmerkingen met betrekking tot TMX-bestanden:
De TMX-standaard bevat definities van welke tekens toegestaan zijn. Niet alle CAT-programma's zijn even streng in de naleving van deze definities; als consequentie daarvan zijn sommige CAT-programma's niet in staat om direct TMX-bestanden te openen die zijn gemaakt door bepaalde andere CAT-programma's. OmegaT volgt over het algemeen de condities en is tolerant voor de gebreken van andere programma's om ze te zien; zouden hier echter problemen ontstaan, dan kunnen zij in het algemeen redelijk eenvoudig worden opgelost door een zoek- en vervangactie in een tekstbewerker van het niet geldige teken binnen het TMX-bestand.
TMX-bestanden zijn in de codering Unicode, maar mogen UTF-8 of UTF-16 zijn. TMX-bestanden die zijn gemaakt op Windows systemen zouden kunnen beginnen met een byte-order mark (BOM). Deze verschillen leiden in het algemeen niet tot compatibiliteits-problemen.
Compatibiliteits-problemen zouden kunnen worden veroorzaakt door verschillen in de gebruikte taalcodes. OmegaT ondersteunt taalcodes in de indeling "xx", "XX", "xx-YY" en "XX-YY", waar xx of XX de taal is, yy of YY de regio. Strikt gesproken vereist de ISO standaard voor taalcodes "xx-YY" (bijvoorbeeld: "en-GB" voor Brits Engels); hoewek deze variant wordt ondersteund door OmegaT, is de door OmegaT aangeboden standaard conventie "XX-YY", bijv. "EN-GB". OmegaT is tolerant bij het lezen van TMX-bestanden: het zal bestanden accepteren met en-GB, en-US, en, EN, etc. Niet alle CAT-programma's vertonen dezelfde tolerantie en sommige zouden daarom de verwachte overeenkomsten niet hoeven weer te geven als de taalcodes niet genoeg voldoen. Deze incompatibiliteit kan worden opgelost door te zoeken naar en het vervangen van de relevante taalcodes in het TMX-bestand in een toepasselijke tekstbewerker. Een andere mogelijk bron van incompatibiliteit zijn drie-cijferige taalcodes, welke in het geheel niet worden ondersteund door OmegaT. (Dit is trouwens een beperking van Java, niet van OmegaT zelf.)
Punten met betrekking tot gebonden bestanden van vertaalgeheugens:
De traditionele bestandsindeling van Wordfast-vertaalgeheugens is van bijzondere interesse dankzij zijn eenvoud: het bestaat uit een bestand van platte-tekst met een vertaaleenheid (segment) op elke regel waarin de bron en het doel worden gescheiden door een tab. Deze indeling kan eenvoudig worden geconverteerd naar de TMX-indeling door programma's van derden zoals Wf2TMX.
OmegaT's woordenlijsten zijn bestanden van platte-tekst in de indeling:
bronterm <tab> doelterm <tab> aanvullende informatie
Sommige andere CAT-programma's zijn in staat om woordenlijsten in deze indeling te importeren en te exporteren, of een een soortgelijke indeling van platte-tekst die daaruit op eenvoudige wijze kan worden gemaakt (bijvoorbeeld door een zoek- & vervangactie in Microsoft Word).
OmegaT kan geen woordenlijsten in gesloten binaire indelingen, zoals Trados Multiterm, importeren of lezen.
Veel CAT-programma's maken gebruik van een tussenliggend tweetalige bestandsindeling, d.i. een bestand dat zowel de brontaal- als de doeltaalsegmenten bevat en in sommige gevallen ook de structuur van het originele bestand. Origineel zouden deze tweetalige bestandsindelingen een bijproduct van de architectuur van het programma kunnen zijn. Zij zijn echter een belangrijk fenomeen geworden in werkstromen van vertalingen waarbij CAT-programma's worden gebruikt, en zij vormen vaak het grootste obstakel voor compatibiliteit tussen OmegaT en andere CAT-programma's (of voor wat dat betreft: tussen CAT-programma's in het algemeen).
Er zijn tenminste drie redenen waarom een klant de levering van een vertaling in een bepaalde tweetalige bestandsindeling kan vragen (in plaats van eenvoudigweg levering van het vertaalde bestand en mogelijk ook het vertaalgeheugen):
1. Sommige CAT-programma's, met name TRADOS, zijn in staat om een breed scala aan bestandsindelingen te importeren, inclusief bestandsindelingen voor desktop publishing, en ze voor te bereiden op vertaling in het betreffende programma. De "voorbereide" vorm is veelal de tweetalige bestandsindeling van het programma. Zonder voorbereiding op deze manier zou het originele bestand toegankelijk kunnen zijn voor de vertaler.Verschillende tweetalige bestandsindelingen kunnen worden afgehandeld door OmegaT, en niet noodzakelijkerwijze met heel veel inspanning. Begrip van de betrokken processen is echter belangrijk. De individuele tweetalige bestandsindelingen worden hieronder beschreven.
XLIFF is de industriële standaard tweetalige bestandsindeling. Het wordt ondersteund door meerdere CAT-programma's, en in feite zijn sommige CAT-programma's effectief "ontworpen rondom" de XLIFF-standaard: Heartsome en Swordfish zijn voorbeelden hiervan. Omdat het een standaard is, is een voordeel van XLIFF dat bestandsfilters die worden verschaft door de ene verkoper van een CAT-programma voor conversie tussen een bepaalde indeling en XLIFF (en, volgend op de voltooide werkstroom van de vertaling, weer terug) kan in theorie worden gebruikt om bestanden te prepareren in de betrokken indeling voor vertaling in een willekeurig CAT-programma dat in staat is om XLIFF te ondersteunen. In de praktijk vereist het werken met de XLIFF-werkstroom vaak het gebruik van programma's die niet erg gebruikersvriendelijk zijn.
OmegaT heeft rudimentaire ondersteuning voor XLIFF, en een procedure voor het gebruiken van XLIFF in OmegaT in samenwerking met de programma's van Rainbow kan hier worden gevonden. De beschikbare filters zijn hoofdzakelijk voor bestandsindelingen die meer bijzonder zijn voor de IT-industrie in plaats van voor bestanden voor eindgebruikers.
Trados TTX-indeling is het tegenovergestelde van de "vuile RTF"-indeling voor Trados Tag Editor, die, anders dan Trados Workbench, niet werkt in directe combinatie met MS Word. TTX is een XML-gebaseerde indeling. Een script ("Toxic", voor Trados-OmegaT-eXchange) en filtercombinatie die het mogelijk maakt dat TTX-bestanden worden vertaald in OmegaT is hier beschikbaar. Belangrijk: deze mogelijkheid bevindt zich nog steeds in een zeer pril stadium van ontwikkeling.
Wordfast TXML is de eigen interne indeling van Wordfast's nieuwe Wordfast Professional (ook bekend als Wordfast 6.0). Zoals zijn naam aangeeft, is het een XML-gebaseerde indeling. Het wordt momenteel niet ondersteund door OmegaT, en volgens vertegenwoordigers van Wordfast, zal het op de middellange termijn worden opgevolgd door XLIFF.
Een interessante mogelijkheid van Déjà Vu DVX is zijn "External View"-bestandsindeling. Deze bestandsindeling maakt het gebruikers van OmegaT mogelijk om tweetalige bestanden af te leveren aan gebruikers van Déjà Vu DVX, die ze dan verder kunnen bewerken of ze kunnen invoegen binnen geautomatiseerde werkstromen. Voor details, zie de Déjà Vu "External View" HOWTO.
Terug naar documentatie
© Marc Prior, 2009