TMX-Datei bereinigen

17/03/2012 - 07:50 von Hans List | Report spam
Hallo,

Ich möchte eine Translation Memory Exchange-Datei (TMX) bereinigen und
nur die Sprachencodes, die Sprachensegmente und den Vor- und Nachspann
jeder Translation Unit (TU) behalten. Die UTF-8-Dateien sind riesig
(400.000 Zeilen und mehr).

Eine TU sieht so aus:

<tu>
<prop type="FileFormatGUID">{59BFE790-8ECE-483B-879F-D6431D50F78B}</
prop>
<prop type="Filename">Bedienterminal</prop>

<tuv xml:lang="de-de" changedate="20120309T103527Z"
changeid="Transit">
<seg>Allgemeiner Aufbau der Programmoberflàche</seg>
</tuv>

<tuv xml:lang="nl-nl" changedate="20120208T094333Z" changeid="AA"
creationdate="20120123T124003Z" creationid="AA">
<prop type="Translator">AA</prop>
<seg>Algemene opbouw van de gebruikersinterface</seg>
</tuv>
</tu>

Wàre dies das richtige Vorgehen zur Bereinigung?

Read all lines
If a line contains lang="de-de"
read the next line
write
<tu>
<tuv xml:lang="de-de">
<seg>Allgemeiner Aufbau der Programmoberflàche</seg>
</tuv>
ElseIf a line contains lang="nl-nl"
read the 2nd next line?? (via a counter, n+2?)
write
<tuv xml:lang="nl-nl">
<seg>Algemene opbouw van de gebruikersinterface</seg>
</tuv>
</tu>
EndIf

Für jede Hilfe dankbar!

Hans
 

Lesen sie die antworten

#1 Rainer H. Rauschenberg
17/03/2012 - 17:32 | Warnen spam
On 2012-03-17, Hans List wrote:

Ich möchte eine Translation Memory Exchange-Datei (TMX) bereinigen und
nur die Sprachencodes, die Sprachensegmente und den Vor- und Nachspann
jeder Translation Unit (TU) behalten. Die UTF-8-Dateien sind riesig
(400.000 Zeilen und mehr).

Eine TU sieht so aus:



[XML-Verhau]

Wàre dies das richtige Vorgehen zur Bereinigung?



[Pseudocode]

Sieht oberflàchlich so aus. Vor allem aber ist Word IMHO nicht das
richtige Werkzeug dafür sowas zu machen. Entweder Werkzeuge, die auf
XML-Bearbeitung spezialisiert sind, oder zumindest sowas wie Perl.

Ähnliche fragen