HOWTO: OmegaT:n yhteensopivuusTämä HOWTO-ohje kuvaa OmegaT:n yhteensopivuutta muiden ohjelmien kanssa.
Koska ammattikääntäjät tavallisesti vastaanottavat ja toimittavat tekstejä digitaalisessa muodossa, OmegaT:n käyttäjät ovat tietysti kiinnostuneita ohjelman yhteensopivuudesta muiden ohjelmistotuotteiden kanssa. Tässä HOWTO-ohjeessa kerrotaan OmegaT:n yhteensopivuudesta tällä osa-alueella.
Yleisesti voi sanoa, että "yhteensopivuus" on harvoin mustavalkoinen kyllä tai ei -tilanne. Yhteensopivuus on harvoin sataprosenttista myyjän väittäessä tuotteen olevan yhteensopiva toisen ohjelmistotuotteen kanssa. Toisaalta tuotteiden ollessa selkeästi yhteensopimattomia ne voivat kuitenkin usein sopivalla menettelyllä toimia yhdessä. Kysymys kuuluukin, ovatko nämä menettelyt hyväksyttäviä kun otetaan huomioon tulokset ja vaivannäkö. Vastaus todennäköisesti vaihtelee käyttäjästä riippuen. Yhteensopivuudessa ei siis ole kyse vain tuotteista, vaan myös asiankäsittelystä.
OmegaT toimii missä tahansa käyttöjärjestelmässä, jossa toimii sopiva Java Runtime Environment (JRE) -versio. Nykyisellään näihin kuuluvat Microsoft Windows alkaen Windows 98:sta, Mac OS X ja useimmat Linux-jakeluversiot.
OmegaT:n käyttöopaassa on ajantasainen lista tuetuista tiedostomuodoista. Tämä lista ei ei ole kaikenkattava lista kaikista OmegaT:n tukemista tiedostomuodoista, vaan se rajoittuu tavallisen käyttäjän kannalta oleellisiin muotoihin.
OpenOffice.org; Open Document Format; Star Office; Open Office Writer; Open Office Calc; Open Office Impress; NeoOffice:
Nämä tiedostomuodot vastaavat Microsoft Officen tiedostomuotoja. Open Document Format on kansainvälinen standardi, joka on korvannut patentoidun (mutta avoimen) Star Office -tiedostomuodon. Tiedostomuodot ovat erilaiset, mutta hyvin lähellä toisiaan. NeoOffice on OpenOffice.orgin MAC OS X -version nimi. OmegaT:llä on tiedostosuodattimet sekä Open Document Formatille että Star Officelle, jonka edellinen on korvannut. Tiedostosuodattimet toimivat erinomaisesti, ja on äärimmäisen epätodennäköistä, että OmegaT:llä kääntäminen vahingoittaisi OpenOffice.org, Star Office tms. -tiedoston muotoilua.
HTML; XHTML:
Verkkosivut ovat yleensä tiedostomuodossa HTML, jota XML:ssä vastaa XHTML. OmegaT:llä on erinomaiset tiedostosuodattimet molemmille. OpenOffice.org-tiedostojen tapaan näiden tiedostojen kääntäminen OmegaT:ssä on erittäin turvallista. Parhaan tuloksen kuitenkin saa säätämällä suodattimien asetuksia itselleen sopiviksi.
Microsoft Office 97-2003 (Microsoft Word/Excel/Powerpoint 2003):
Nämä tiedostomuodot ovat patentoituja ja binaarisia eivätkä ne olleet viime aikoihin asti julkisesti dokumentoituja. Nämä seikat tekevät niistä äärimmäisen hankalia CAT-työkalujen käsiteltäviksi.
Jotkut CAT-työkalut ratkaisevat ongelman ainakin MS Wordin osalta toimimalla suoraan Wordin kanssa, kun taas useimmat muuntavat tiedostot RTF-muotoon ja takaisin, usein kääntäjän huomaamatta.
OmegaT ei suoraan tue näitä tiedostomuotoja. Sen sijaan yleensä OmegaT:tä käytettäessä kääntäjä muuntaa tiedostot itse OpenOffice.org-muotoon.
Muunnetut tiedostot ovat yleensä erittäin hyvälaatuisia, Word ja Excel -tiedostot parempia kuin Powerpoint-tiedostot. Ei ole päästy yksimielisyyteen siitä, ovatko muunnetut tiedostot tarpeeksi laadukkaita ammattikääntäjille. On kuitenkin huomattava, että CAT-työkalut, jotka näyttävät käsittelevän Microsoft Office -tiedostoja suoraan, useinkin hävittävät tai sotkevat tiedoston muotoilun joko lisäämällä käännösprosessiin liittyvää muotoilua tai muuntamalla tiedostot RTF-muotoon ja takaisin (mikä ei myöskään ole häviötön menetelmä). OmegaT ei siis poikkea muista CAT-työkaluista muuntaessaan Microsoft Office -tiedostoja eri muotoon ja takaisin.
Käyttäjän on parasta kokeilla itse, mieluiten tiedostoilla, joissa on monimutkaista muotoilua. On huomattava, että muuntamisen laatu koskee muuntamista molempiin suuntiin (englanniksi "roundtripping"). Microsoft Word -tiedosto voi näyttää hyvin erilaiselta OpenOffice.org -muotoon muunnettuna, vaikka sen rakenne olisi ennallaan eikä muotoilu olisi mitenkään muuttunut tai vahingoittunut.
Jotkut OmegaT-käyttäjät ovat jättäneet Microsoft Officen kokonaan pois, toiset taas käyttävät sitä vain tarkistaakseen kaikkein eniten muotoiluja sisältävät asiakirjat. Osa Microsoft Office ja OpenOffice.org -tiedostojen muuntamiseen liittyvistä ongelmista on tiedossa. Esimerkiksi Microsoft Wordin sivunumerokenttä häviää OpenOffice.org -tiedostoksi ja takaisin muunnettaessa, mutta sen voi palauttaa Microsoft Officessa kun tiedosto on muunnettu takaisin Microsoft Word -muotoon.
OpenOffice.orgin luullaan yleisesti pystyvän käsittelemään vain melko yksinkertaisia Microsoft Office -muotoiluja, mikä ei pidä paikkaansa. OpenOffice.org säilyttää myös monimutkaiset muotoilut, kuten tyylit ja nauhoitetut muutokset, kun tiedosto muunnetaan takaisin Microsoft Office -muotoon. Paljon monimutkaista muotoilua suurempi ja yleisempi ongelma on itse asiassa huono muotoilu, erityisesti kun tekijä on oikean rakenteen sijasta muotoillut tekstiä silmämääräisesti (esimerkiksi sisentänyt välilyöntejä tai tabulaattoria käyttämällä).
RTF (Rich Text Format):
RTF eroaa rakenteellisesti melko paljon Microsoft Office 98-2003 -tiedostomuodoista, mutta OmegaT:n suhteen tilanne on sama. Sitä ei tueta suoraan, vaan tavallinen menettely on muuntaminen OpenOffice.orgiin ja takaisin.
Microsoft Office 2007 (Word, Excel, PowerPoint 2007); Office Open XML:
Microsoft Office 2007 -tiedostomuoto (eli Office Open XML) eroaa merkittävästi Office 97-2003 -muodoista. Itse asiassa sen rakenne on hyvin samanlainen kuin OpenOffice.org-tiedostojen, koska se koostuu useita tiedostoja sisältävistä zip-arkistoista ja tekstin sisältävät tiedostot pohjautuvat XML-standardiin. Siksi CAT-työkalujen on periaatteessa helpompi tukea ja muokata sitä suoraan.
OmegaT:llä on oma suodatin Microsoft Office 2007 -tiedostoille. Tätä kirjoitettaessa suodatin on kuitenkin vielä varhaisessa kehitysvaiheessa ja sillä on eräs hyvin huono puoli: se muodostaa erittäin suuren määrän tägejä. Toisessa vaakakupissa kuitenkin painaa se, ettei tiedosto voi vahingoittua käännettäessä, koska tiedostoa ei tarvitse muuntaa vaan OmegaT muokkaa sen suoraan.
Tällä hetkellä toinen ja yleensä suositumpi tapa on muuntaa Microsoft Office 2007 -tiedostot OpenDocument-muotoon (OpenOffice.orgiin) ja takaisin kuten aikaisemmatkin Microsoft Office 97-2003 -muodotkin. Sen voi tehdä eri tavoin, joko suoraan (Office Open XML -muodosta OpenDocument Format -muotoon) tai välillisesti Microsoft Office 97-2003 -muodon kautta:
1. Muunnetaan tiedostot Microsoft Office 2007:ssä Microsoft Office 98-2003 -muotoon (ja sen jälkeen OpenOffice.orgissa OpenDocument Format -muotoon).
2. Microsoft Officen käyttäjät, joilla ei (vielä) ole 2007-versiota, voivat muuntaa tiedostoja Office Open XML ja Microsoft Office 98-2003 -muotojen välillä Microsoftin ilmaisella muuntimella, joka on saatavana täältä. Muunnin on saatavana Windowsille ja Macille.
3. Office Open XML voidaan muuntaa suoraan Open Document Format -muotoon ja takaisin ODF-muuntimella, joka on saatavana täältä. Apuohjelma tarvitsee MS Office (XP/2003/2008) -version.
4. Mac OS X -käyttäjät voivat muuntaa suoraan Office Open XML -muodosta OpenDocument Format -muotoon ja takaisin NeoOfficella.
5. Linux-käyttäjät voivat käyttää tätä versiota muunninapuohjelmasta ja muuntaa Office Open XML ja OpenDocument Format -tiedostoja suoraan.
6. OpenOffice.orgin nykyinen versio (3.0.x) osaa tuoda Microsoft Office 2007 -tiedostoja ja muuntaa ne OpenOffice.org-muotoon, mutta se ei osaa muuntaa niitä takaisin. Se voi tietysti muuntaa ne takaisin Microsoft Office 97-2003 -muotoihin. Koska Microsoft Office 2007 osaa lukea näitä muotoja, Microsoft Office 2007:ää käyttävät asiakkaat voivat hyväksyä tämä menetelmän.
Käännösmuisteilla on kansainvälinen standardi TMX eli Translation Memory eXchange. Sitä käytetään laajasti ja lähes kaikki nykyiset CAT-työkalut tukevat sitä.
TMX-standardi on sekä eri versioina että eri tasoilla. Ero on yhteensopivuuden kannalta olennainen. Standardi on yhä kehitysvaiheessa, johon eri versiot liittyvät. Tasot viittaavat TMX-tiedoston sisältämiin muotoilutietoihin:
Tason 1 TMX-tiedostot eivät sisällä mitään muotoilutietoja.
Tason 2 TMX-tiedostot sisältävät muotoilutietoja, mutta tiedostot ovat yleensä yhteensopivia vain samaa CAT-työkalua käytettäessä. Toisin sanoen OmegaT-käyttäjän löytäessä täyden vastineen OmegaT:n tason 2 TMX-muistista se voidaan hyväksyä sellaisenaan, mutta näin ei ole toisen CAT-työkalun tuottamaa tason 2 TMX-muistia käytettäessä (tai toisinpäin). Tällä on seurauksia käännöstyössä. CAT-työkalujen käyttäjät (yleensä asiakkaat) odottavat saavansa käännösmuistitiedostoja, joista täydet vastineet syötetään tekstiin automaattisesti.
Tason 3 TMX-tiedostot sisältävät muotoilutietoja muodossa, jota muut CAT-työkalut osaavat käsitellä. CAT-työkalut tukevat tasoa 3 vain harvoin.
Jotkut muut CAT-työkalut (kuten TRADOS) osaavat viedä erilaisia TMX-tiedostoja eri versioihin. OmegatT tukee kaikkia nykyisiä TMX-versioita, mutta tuottaa todennäköisesti parempia vastinetuloksia, jos TMX-tiedoston versio on 1.4b.
Eri tasojen TMX-tiedostoja tukevat työkalut ovat silti periaatteessa keskenään yhteensopivia. Korkeampien tasojen muotoilutiedot ovat toiselle työkalulle merkityksettömiä, mutta tekstitiedot ovat näkyvissä, vastineet löytyvät jne.
OmegaT:n oma käännösmuistimuoto on kansainvälinen TMX-standardi. Jotkut CAT-työkalut käyttävät yhä omia yksityisiä käännösmuistimuotojaan, mutta lähes kaikki tukevat TMX-tiedostojen tuontia ja vientiä. Käytännössä kääntäjä voi siis toimittaa asiakkaalle käännösmuisteja ja päinvastoin, ja vastaanottaja voi käyttää tiedostoja heti tai vastaisuudessa. Jos tiedostoja käytetään automaattisessa asiankäsittelyssä, niitä koskee yllä mainittu rajoite.
Muuta huomattavaa TMX-tiedostoista:
TMX-standardissa on määritelty sallitut merkit. Kaikki CAT-työkalut eivät kuitenkaan noudata määritelmiä yhtä tiukasti, minkä vuoksi jotkut niistä eivät voi suoraan avata muiden tuottamia TMX-tiedostoja. OmegaT noudattaa yleensä ehtoja ja hyväksyy muiden työkalujen noudattamatta jättämisen, mutta jos ongelmia tulee, ne voi yleensä ratkaista kohtuullisen helposti muuttamalla kielletty merkki TMX-tiedostosta etsi ja korvaa -toiminnolla tekstieditorissa.
TMX-tiedostoissa käytetään Unicode-merkistökoodausta, joko UTF-8 tai UTF-16. Windows-järjestelmässä tuotetut TMX-tiedostot saattavat alkaa BOM-merkillä (byte order mark). Ne eivät yleensä aiheuta yhteensopivuusongelmia.
Yhteensopivuusongelmia voivat aiheuttaa käytettyjen kielikoodien erot. OmegaT tukee kielikoodeja muodoissa "xx", "XX", "xx-YY" ja "XX-YY", joissa xx tai XX on kieli ja yy tai YY alue. Tarkasti ottaen kielikoodien ISO-standardi vaatii muodon "xx-YY" (esimerkiksi "en-GB" eli brittienglanti). Vaikka OmegaT tukee tätä vaihtoehtoa, sen oletusasetuksena on "XX-YY", eli esimerkiksi "EN-GB". OmegaT käsittelee TMX-tiedostoja suvaitsevaisesti ja hyväksyy tiedostot, jotka on merkitty en-GB, en-US, en, EN jne. Kaikki CAT-työkalut eivät ole yhtä suvaitsevaisia eivätkä välttämättä näytä odotettuja vastineita, elleivät kielikoodit ole tarpeeksi yhdenmukaisia. Ongelma voidaan ratkaista etsimällä ja korvaamalla kyseiset TMX-tiedoston kielikoodit sopivassa tekstieditorissa. Yhteensopivuusngelmia voivat tuottaa myös kolmikirjaimiset kielikoodit, joita OmegaT ei tue lainkaan. (Tämä on tosin Javaan, ei itse OmegaT:hen liittyvä rajoitus.)
Huomattavaa ohjelmien omia käännösmuistimuotoja koskien:
Perinteinen Wordfast-käännösmuisti on erityisen kiinnostava yksinkertaisuutensa vuoksi. Se on tekstitiedosto, jossa on jokaisella rivillä käännösyksikkö (segmentti), lähde ja kohde sarkaimen erottamina. Muoto on helppo muuntaa TMX-muotoon kolmannen osapuolen apuohjelmilla, joihin kuuluu Wf2TMX.
OmegaT:n sanastotiedostot ovat tekstitiedostoja muodossa:
lähdetermi <tab> kohdetermi <tab> lisätiedot
Jotkut CAT-työkalut osaavat tuoda ja viedä sanastotiedostoja tässä muodossa tai samankaltaisessa tekstimuodossa, joka voidaan luoda siitä helposti (esimerkiksi Microsoft Wordissa etsi ja korvaa -toiminnolla).
OmegaT ei osaa tuoda tai lukea sanastotiedostoja ohjelmien omissa binaarimuodoissa, kuten Trados Multitermissä.
Monet CAT-työkalut käyttävät välillistä kaksikielistä tiedostomuotoa eli tiedostoa, joka sisältää segmentit sekä lähde- että kohdekielellä ja joissakin tapauksissa myös alkuperäisen tiedoston rakenteen. Alunperin kaksikieliset tiedostomuodot ovat saattaneet olla työkalun sisäisen rakenteen sivutuote. Niistä on kuitenkin tullut merkittävä ilmiö käännösten CAT-työkaluilla tehtävässä asiankäsittelyssä ja ne ovat usein suurin este OmegaT:n ja muiden CAT-työkalujen yhteensopivuudelle (ja itse asiassa eri CAT-työkalujen välillä yleensäkin).
Asiakas saattaa ainakin kolmesta eri syystä haluta käännöksen tietyssä kaksikielisessä tiedostomuodossa (eikä vain käännettyä tiedostoa ja mahdollisesti käännösmuistia).
1. Jotkut CAT-työkalut, erityisesti TRADOS, osaavat tuoda paljon erilaisia tiedostomuotoja, myös taittotiedostoja, ja valmistella ne kyseisen työkalun käännettäviksi. Valmisteltu muoto on yleensä työkalun kaksikielinen tiedostomuoto. Alkuperäinen, valmistelematon tiedosto ei siten ehkä ole kääntäjän käytettävissä.OmegaT osaa käsitellä useita kaksikielisiä tiedostomuotoja eikä se välttämättä ole kovin vaivalloista. Menettelyn ymmärtäminen on kuitenkin olennaista. Alla on kuvattu yksittäiset kaksikieliset tiedostomuodot.
XLIFF on alan standardin mukainen kaksikielinen tiedostomuoto. Monet CAT-työkalut tukevat sitä. Itse asiassa jotkut onkin käytännöllisesti katsoen suunniteltu XLIFF-standardin ympärille, esimerkiksi Heartsome ja Swordfish. XLIFF-muoto on standardi, minkä etu on se, että yhden CAT-työkalun myyjän tarjoamat tiedostosuodattimet tietyn tiedostomuodon ja XLIFF-muodon väliseen muuntamiseen (ja käännöksen asiankäsittelyn lopuksi takaisin muuntamiseen) kelpaavat teoriassa tiedostojen valmisteluun kyseisessä muodossa millä tahansa XLIFF-muotoa tukevalla CAT-työkalulla. Käytännössä XLIFF-asiankäsittelyn kanssa työskentely usein edellyttää vähemmän käyttäjäystävällisten työkalujen käyttöä.
OmegaT:llä on alkeellinen XLIFF-tuki. Menettely XLIFF-tiedostojen käyttämiseen OmegaT:ssä Rainbow-työkalujen kanssa löytyy täältä. Saatavana olevat suodattimet ovat lähinnä IT-alalle ominaisia tiedostomuotoja, ei loppukäyttäjän tiedostoja, varten.
Tradosin TTX-muoto on kaksikielisen RTF -muodon vastapuoli Trados Tag Editorissa, joka toisin kuin Trados Workbench, ei toimi suoraan yhdessä MS Wordin kanssa. TTX on XML-pohjainen muoto. Komentosarja (Toxic eli Trados-OmegaT-eXchange) ja suodatinyhdistelmä, joiden avulla TTX-tiedostoja voi kääntää OmegaT:llä, ovat saatavana täällä. Tärkeä huomio: ominaisuus on vielä hyvin varhaisessa kehitysvaiheessa.
Wordfast TXML on Wordfastin uuden Wordfast Professionalin (toiselta nimeltään Wordfast 6.0) oma sisäinen tiedostomuoto. Nimensä mukaisesti se on XML-pohjainen muoto. OmegaT ei tällä hetkellä tue sitä. Wordfastin edustajien mukaan XLIFF todennäköisesti syrjäyttää sen lähitulevaisuudessa.
Déjà Vu DVX:ssä on kiinnostava ominaisuus, External View -tiedostomuoto. Tiedostomuodon avulla OmegaT-käyttäjät voivat toimittaa kaksikielisiä tiedostoja Déjà Vu DVX -käyttäjille, jotka voivat sitten muokata niitä tai sisällyttää ne automaattiseen asiankäsittelyyn. Katso tarkemmat tiedot osasta HOWTO: Déjà Vun External View.
Takaisin dokumentaatioon
© Marc Prior, 2009