112
1 Thomas Gartz 24.10.2010 Kodningspraxis för Zacharias Topelius Skrifter A INLEDNING ............................................................................................................................................... 2 A.1 KODSPRÅKEN XML OCH TEI ........................................................................................................................... 2 A.2 AUTOMATISKT OCH MANUELLT ........................................................................................................................ 6 A.3 XML COPY EDITOR ....................................................................................................................................... 8 A.4 FILSTRUKTURER .......................................................................................................................................... 12 B TEXTETABLERING ................................................................................................................................... 17 B.1 ALLMÄNT .................................................................................................................................................. 17 B.2 GRAFISKA MARKERINGAR.............................................................................................................................. 25 B.3 ENSKILDA TECKEN ....................................................................................................................................... 30 B.4 UTGIVARENS ÄNDRINGAR ............................................................................................................................. 34 C MANUSKRIPT ......................................................................................................................................... 40 C.1 ALLMÄNT .................................................................................................................................................. 40 C.2 HÄNDER OCH PENNOR ................................................................................................................................. 45 C.3 ÄNDRINGAR ............................................................................................................................................... 49 D VARIANTER ............................................................................................................................................ 58 D.1 IDENTIFIERING (JUXTA) ................................................................................................................................ 58 D.2 KATEGORISERING OCH KODNINGSMETOD......................................................................................................... 59 D.3 AVGRÄNSNING ........................................................................................................................................... 63 E OMARKERADE TEXTINSLAG .................................................................................................................... 65 E.1 NAMNKODNING.......................................................................................................................................... 65 E.2 FRÄMMANDE SPRÅK .................................................................................................................................... 70 F KOMMENTARER ..................................................................................................................................... 72 F.1 PUNKTKOMMENTARER ................................................................................................................................. 72 F.2 PERSONUPPGIFTER ...................................................................................................................................... 73 G GENRESPECIFIKT .................................................................................................................................... 74 G.1 PROSA...................................................................................................................................................... 74 G.2 LYRIK ....................................................................................................................................................... 74 G.3 BREV........................................................................................................................................................ 80 G.4 DRAMATIK ................................................................................................................................................ 90 G.5 DAGBÖCKER .............................................................................................................................................. 91 G.6 FÖRELÄSNINGAR......................................................................................................................................... 92 H FÖRTECKNINGAR ................................................................................................................................... 94 H.1 ELEMENT, ATTRIBUT OCH VÄRDEN.................................................................................................................. 94 H.2 SPECIALTECKEN (ENTITETER) ....................................................................................................................... 108 H.3 TEI-MODULER .........................................................................................................................................111

Kooddn niinggsspprraaxxiiss sfföörr eZZaacchhaarriiaass ... · A.1 KODSPRÅKEN XML OCH TEI ... Om man kopplar ett valideringsschema (eller ett s.k. DTD som fyller samma funktion)

  • Upload
    others

  • View
    2

  • Download
    0

Embed Size (px)

Citation preview

  • 1

    Thomas Gartz 24.10.2010

    KKooddnniinnggsspprraaxxiiss fföörr ZZaacchhaarriiaass TTooppeelliiuuss SSkkrriifftteerr

    A INLEDNING ............................................................................................................................................... 2

    A.1 KODSPRÅKEN XML OCH TEI ........................................................................................................................... 2 A.2 AUTOMATISKT OCH MANUELLT ........................................................................................................................ 6 A.3 XML COPY EDITOR ....................................................................................................................................... 8 A.4 FILSTRUKTURER .......................................................................................................................................... 12

    B TEXTETABLERING ................................................................................................................................... 17

    B.1 ALLMÄNT .................................................................................................................................................. 17 B.2 GRAFISKA MARKERINGAR .............................................................................................................................. 25 B.3 ENSKILDA TECKEN ....................................................................................................................................... 30 B.4 UTGIVARENS ÄNDRINGAR ............................................................................................................................. 34

    C MANUSKRIPT ......................................................................................................................................... 40

    C.1 ALLMÄNT .................................................................................................................................................. 40 C.2 HÄNDER OCH PENNOR ................................................................................................................................. 45 C.3 ÄNDRINGAR ............................................................................................................................................... 49

    D VARIANTER ............................................................................................................................................ 58

    D.1 IDENTIFIERING (JUXTA) ................................................................................................................................ 58 D.2 KATEGORISERING OCH KODNINGSMETOD......................................................................................................... 59 D.3 AVGRÄNSNING ........................................................................................................................................... 63

    E OMARKERADE TEXTINSLAG .................................................................................................................... 65

    E.1 NAMNKODNING .......................................................................................................................................... 65 E.2 FRÄMMANDE SPRÅK .................................................................................................................................... 70

    F KOMMENTARER ..................................................................................................................................... 72

    F.1 PUNKTKOMMENTARER ................................................................................................................................. 72 F.2 PERSONUPPGIFTER ...................................................................................................................................... 73

    G GENRESPECIFIKT .................................................................................................................................... 74

    G.1 PROSA ...................................................................................................................................................... 74 G.2 LYRIK ....................................................................................................................................................... 74 G.3 BREV ........................................................................................................................................................ 80 G.4 DRAMATIK ................................................................................................................................................ 90 G.5 DAGBÖCKER .............................................................................................................................................. 91 G.6 FÖRELÄSNINGAR......................................................................................................................................... 92

    H FÖRTECKNINGAR ................................................................................................................................... 94

    H.1 ELEMENT, ATTRIBUT OCH VÄRDEN.................................................................................................................. 94 H.2 SPECIALTECKEN (ENTITETER) ....................................................................................................................... 108 H.3 TEI-MODULER ......................................................................................................................................... 111

  • 2

    A Inledning A.1 Kodspråken XML och TEI

    Uppdaterad 24.10.2010

    Vår kodning har sin utgångspunkt i det s.k. Text Encoding Initiative, förkortat TEI. Dess senaste version, benämnd P5, kan studeras på nätet (1350 sidor, finns på adressen http://www.tei-c.org/Guidelines/). TEI utgör ändå endast en yttre ram för vår kodnings-praxis: det ges ofta flera alternativ, vi måste fastslå vad vi kodar och vad vi inte kodar, och i vilka kategorier vi indelar varianter, kommentarer m.m. Det är ytterst viktigt att alla alltid följer exakt samma kodningspraxis, annars uppstår det sedan problem vid visning, maskinell sökning och framställning av böcker. All ny kodning som tas i bruk bör därför införas i denna kodningsmanual. TEI består av riktlinjer för textkodning inom ramen för det mer generella kodspråket XML (eXtensible Markup Language). XML-kodningen har sin utgångspunkt i s.k. taggar (ex:

    ) som ofta bör efterföljas av skilda s.k. sluttaggar (ex:

    ). Mellan (start)taggen och sluttaggen finns den text som man vill markera med taggen ifråga. Denna helhet – t.ex.

    Z. Topelius

    – går under benämningen element. Men det förekommer också s.k. tomma element som inte omsluter någon text. De efterföljs inte av någon skild sluttagg, utan avslutas inne i starttaggen med ett snedstreck (ex. ). I taggen

    är p – som vanligen står för textstycke – det s.k. elementnamnet. Ofta används emellertid den kortare termen ”element” också då enbart elementnamnet (dvs. elementtypen) avses. I XML kan (eller måste) man definiera egna element, vilket inte är möjligt i HTML (som används för kodning av webbsidor) där det finns en uppsättning färdiga elementnamn. rend är ett s.k. attribut och noIndent är ett attributvärde. Ett element kan också sakna attribut, eller ha flera attribut (ordningsföljden har ingen betydelse, men inför gärna attributen i samma följd som i exemplen i denna manual). När ett attribut används måste det alltid tilldelas ett värde som alltid bör omges av citattecken (även då det är fråga om numeriska värden såsom siffror, procenttal eller färgkoder). Taggen i exemplet ovan placeras i början av ett textstycke, och efterföljs i slutet av stycket av sluttaggen

    . Taggen

    står i HTML alltid för textstycke, men i XML kan samma tagg användas för att markera precis vad som helst. Inom ramen för TEI är det ändå färdigt definierat att

    står för textstycke (och är en förkortning av ”paragraph”). Däremot tas det i TEI-riktlinjerna inte ställning till om − och i så fall hur − man i kodningen skall registrera om ett stycke är indraget eller inte. Ifall man inte anser det vara relevant att återge vilka textstycken som är indragna i originalet så kan man i TEI koda dem alla med enbart

    -taggar (standardiserade indrag kan införas i samband med visningen utan att de behöver kodas). I vår kodningspraxis skiljer vi emellertid (som regel) mellan indragna och icke-indragna stycken. De sistnämnda kodas

    medan vi för de indragna

    http://www.tei-c.org/Guidelines/

  • 3

    styckenas del använder oss av ett s.k. förvalt värde (”default value”). Det innebär att vi inte kodar t.ex.

    , utan enbart

    står i vår kodning för indraget stycke.1 I detta dokument återges alla taggar med fetstil och i indigoblå färg, med undantag för attributen som är rödfärgade. Texten som markeras av taggarna återges i grönt. Färgerna och fetstilen har ingen annan betydelse än att de gör instruktionerna mer lättlästa. XML skiljer emellertid på versaler (”stora bokstäver”) och gemener (”små bokstäver”) så i detta hänseende bör man vara noga med att följa skrivningen i instruktionerna. Som regel används gemener i kodningen, versaler förekommer t.ex. i hexadecimala nummer och i elementnamn, attribut samt attributvärden som består av två sammanskrivna ord (, spanTo, "noBorder"). Observera också att taggarna måste öppnas och stängas i en given ordningsföljd, dvs. så att den först öppnade taggen stängs sist och den senast öppnade taggen stängs först: Ex:

    Hertiginnan af Finland.

    Elementen kan alltså inte överlappa varandra. Däremot kan de vara inordnade i ett hierarkiskt mönster. En dikt kan i XML t.ex. kodas i ett -element som kan vara indelat i -element (för strofer) och dessa kan i sin tur indelas i -element för enskilda versrader (observera att dessa elementnamn endast utgör exempel: vi använder dem inte eftersom de inte är giltiga inom ramen för TEI). Utgående från hur elementen förhåller sig till varandra betecknas de som ”parent”, ”child” och ”sibling” (syskonelement). Man kan också – i ett s.k. valideringsschema – fastslå t.ex. att varje -element måste innesluta minst ett -element, och att varje måste innehålla minst en . Därtill kan man t.ex. ange att stavningen inte är tillåten och att varje -element också måste innesluta ett -element med diktens titel. Med hjälp av ett sådant schema kan man sedan granska att ett dokument är giltigt, dvs. fyller de uppställda kraven. XML/TEI-kodningen innnehåller ingen information om hur texten ska visas, utan det styrs av skilda s.k. stilmallar (eng. ”style sheets”). Texten kan sedan gestaltas på otaliga sätt, och allt som har kodats kan också beaktas vid visningen. Med attributet rend kan man t.ex. registrera att ett ord är spärrat i originalet, men i stilmallarna kan man sedan välja att ersätta spärrningen med kursivering. Webbläsare kan visa XML-filer också utan att de är knutna till en stilmall, men i så fall visas också kodningen som vanlig text. Filerna måste vara (kodningstekniskt) helt felfria, annars visas de inte alls. Redigeringsprogram som är avsedda för XML kan automatiskt granska att dokumentet är ”välformat” (”well-formed”) dvs. inte innehåller något som strider mot de grundläggande reglerna för XML-kodning. Om man kopplar ett valideringsschema (eller ett s.k. DTD som fyller samma funktion) till sin XML-fil kan redigeringsprogrammet dessutom kontrollera att dokumentet på varje punkt är förenligt med de krav som man själv ställer, t.ex. att elementet

    är tillåtet men inte elementet

    . Detta går under benämningen validering.

    1 Avvikelser från detta anges i de genrespecifika avsnitten.

  • 4

    I redigeringsprogrammets inställningar bör man välja synliga blanksteg (”white space visible”). De kan också gärna synliggöras i ordbehandlaren vid studium av dessa instruktioner. Blanksteg införs aldrig inne i en tagg, utan före och efter taggen, förutsatt att ett eller flera ord markeras i sin helhet. Ex. 1: Författaren Zacharias Topelius föddes år 1818. Han ...

    Ex. 2: År 1818 föddes författaren Zacharias Topelius. Han ... I exempel 2 införs alltså inget mellanslag efter sluttaggen, eftersom det i texten inte ska finnas något blanksteg mellan Topelius och den avslutande punkten. (Taggen används för grafiska markeringar.) Ex. 3: Författaren Zacharias Topelius ... Blanksteg bör alltså i exemplet införas efter Författaren och efter acharias, men inte före opelius. Blanksteg vid radbrytning

    Det är skäl att vara särskilt uppmärksam med blanksteg på de textställen där raden bryts i redigeringsprogrammet. En radbrytning står i XML-kodningen för blanksteg, förutsatt att det är fråga om en egentlig radbrytning som införts med enter-tangenten, och som innebär att raderna har skilda nummer. Men man kan också ställa in XML-redigeraren så att radlängden anpassas efter utrymmet på skärmen. Dessa tillfälliga radbrytningar är inte betydelsebärande, och att det i kodningsteknisk mening är fråga om en och samma rad framgår av att de två (eller flera) visningsraderna har samma nummer. Flera på varandra följande blanksteg kan automatiskt reduceras till ett enda blanksteg. Om t.ex. ett fristående ord har strukits i ett manuskript kan det därför kodas som i följande exempel: Ex. 4: Författaren Zacharias Topelius Eftersom det strukna ordet inte syns vid visning av den slutliga texten skulle denna kodning alltså utan blankstegsreduktion resultera i dubbla blanksteg mellan de återstående orden. I de specialfall då det skall finnas flera blanksteg i texten bör det därför anges på annat sätt (beroende på sammanhanget med det tomma elementet eller med s.k. entitetsreferenser). Inte heller tecken som har en särskild betydelse i XML kan införas som sådana då de ingår i själva texten, utan de bör ersättas med entitetsreferenser (ex: > anges med >). Specialtecken kan som regel införas som sådana i kodningen (de hittas under ”symbol” eller motsvarande i XML-redigerarens rullgardinsmeny). Endast en del mycket ovanliga tecken måste anges med entitetsreferenser, det gäller t.ex. ovanliga bråktal och arabiska bokstäver.

  • 5

    För att möjliggöra länkning (till en databas, eller mellan textställen i samma fil/ skilda filer) kan enskilda element förses med s.k. id:n2. Ett id måste börja med en bokstav men kan också bestå av siffror, och det bör vara unikt för hela XML-filen. Det får alltså inte förekomma ett identiskt id ens i en annan elementtyp. Därför är det skäl att förse olika slags id:n med skilda prefix: ifråga om fotnoter som tillhör grundtexten används t.ex. prefixet ftn, och ifråga om utgivarkommentarer används prefixet en (”editorial note”). Prefixet efterföljs i dom flesta fall av en löpande numrering som börjar med 1. Detta för att det inte skall bli onödigt svårt att hålla reda på och granska id:na, tekniskt sett har ordningsföljden ingen betydelse, ftn5 kan efterföljas av ftn3. Om man vill införa en utgivarkommentar till mellan en3 och en4 kan man använda en3b. Ex: [filens första fotnot] Ett id består alltså av ett attribut och ett attributvärde (som anges inom citattecken). Ett id är inte avsett för visning, utan fotnotens synliga nummer anges i n-attributet. En del id:n införs manuellt i filerna, medan id:n för länkning av personnamn och ortnamn införs med hjälp ett datorprogram som utarbetats enkom för detta ändamål (Mikael Norrgårds ”TEI Name Selector”). Att varje manuellt infört id är unikt kan man granska genom att göra en sökning på t.ex. id=ftn och gå igenom förekomsterna. Kodningstekniska kommentarer kan införas var som helst i XML-filerna. De skrivs in i taggar som ser ut på följande sätt: . De kodningstekniska kommentarerna bör färgas grå i XML-redigeraren,3 ifall så inte sker har kommentaren ifråga inte införts på rätt sätt. Kommentarer av det här slaget är främst till för redaktionellt bruk, och kan eventuellt avlägsnas i något skede. Men de kan ändå också riktas till de (eventuella) användare som studerar själva de kodade filerna. I kommentarerna kan man till exempel ange att man är osäker på om man har kodat det aktuella textstället korrekt. Man kan också utnyttja de grå kommentarerna till att föra kollationeringsprotokoll inne i XML-filerna, och t.ex. ange att genast efter textstället ifråga. En pedagogisk och lättbegriplig nybörjarguide i XML finns på adressen http://www.w3schools.com/xml/default.asp. En webbkurs i TEI-kodningens grunder finns på www.teibyexample.org. I slutet av denna manual finns en förteckning över de element- och attributkombinationer (samt attributvärden) som är tillåtna i vår kodningspraxis. Förteckningen är avsedd att underlätta uppgörandet av stilmallar och valideringsscheman, men också att fungera som en slags snabbguide. Förutsatt att man först tar del av de egentliga kodningsinstruktionerna kan man sedan i elementförteckningen behändigt kolla upp t.ex. hur ett attributvärde skall skrivas, eller försäkra sig om att en viss kombination av element och attribut faktiskt är tillåten.

    2 Vi använder oss av kortformen id: enligt de senaste TEI-riktlinjerna (P5) borde attributet skrivas xml:id.

    3 Ifall man använder ett annat program än XML Copy Editor kan kommentarerna ha en annan färg (i Oxygen

    är de gröna). Eftersom åtminstone forskare kommer att få tillgång till XML-filerna så kan man i samband med granskningar eller senare kodningsomgångar eventuellt avlägsna en del sådana grå kommentarer som enbart är avsedda för redaktionellt bruk. Grå kommentarer som lämnas kvar i filerna bör vara någorlunda välformulerade.

    http://www.w3schools.com/xml/default.aspwww.teibyexample.org

  • 6

    A.2 Automatiskt och manuellt Uppdaterad 26.2.2010

    Förutsatt att det är fråga om en tryckt grundtext så inleds det praktiska arbetet med att texten skannas. Genom själva skanningen åstadkoms endast elektroniska faksimil av textsidorna. Dessa faksimil utgör alltså bilder i datatekniskt hänseende, och de måste sedan omvandlas till text genom s.k. OCR-behandling (”Optical Character Recognition”). Detta arbetsmoment resulterar i sin tur i en s.k. råtext, som alltid innehåller en del teckentolkningsfel (numera dock vanligen bara ett eller två små fel per sida, förutsatt att skanningen och OCR-behandlingen har genomförts på ett professionellt sätt). Råtexten måste alltså alltid granskas manuellt, dvs. kollationeras mot originalet. Skanningen och OCR-behandlingen utförs inte inom redaktionen, utan av en utomstående specialist. I samband med OCR-behandlingen förses texten automatiskt med en grundläggande TEI-kodning. Den automatiska kodningen omfattar allt som krävs för att texten skall kunna gestaltas på samma sätt som i originalet. Det här innebär kodning för rubriker, styckeindelning, paginering, (fot)noter och grafiska markeringar som t.ex. kursiveringar. Tack vare ett s.k. TEI-filter kan textfilerna ändå kollationeras i en vanlig ordbehandlare (utan att kodningen syns). TEI-filtret fungerar i två riktningar: det konverterar först de automatiskt kodade filerna till OpenOffice.org:s filformat (”.odt”), och sedan när texten har kollationerats färdigt (två gånger) konverterar det tillbaka till TEI-kodning.4 I samband med kollationeringen i ordbehandlaren korrigeras förstås främst teckentolkningsfel, men också om t.ex. en styckeindelning har fallit bort så kan den införas i form av en s.k. mall. Styckeindelningen (mallen) i ordbehandlaren ”översätts” sedan till kodning av TEI-filtret. Mallarna utgör alltså ordbehandlarens motsvarighet till kodningen, och det innebär att om t.ex. ”55” i TEI-filen är kodat som ett sidnummer, så syns det i ordbehandlaren i form av en rödfärgad bakgrund. Det förekommer att det saknas kodning för något enskilt sidnummer i råtexten, och i sådana fall kan man alltså införa den i ordbehandlaren i form av en mall (en ”character style” eller en ”paragraph style”, beroende på om sidnumret finns inne i ett textstycke, eller mellan två stycken). Det syns alltså i ordbehandlaren om det finns direkta fel i den automatiska kodningen. Det kan gälla blanksteg före och efter pagineringskodning (eller att den helt saknas), kodningen för styckeindelning eller -indrag eller att (kodning för) enstaka styckeindelningar eller att betydelsebärande ornament inte är återgivna i råtexten. Skilda instruktioner har utarbetats för kollationeringsmomentet (”Kollationering med OpenOffice.org”, T. Gartz 6.3.2009, 18 s., pdf-fil). Efter kollationeringsskedet kvarstår (förhoppningsvis) inga teckentolkningsfel i den automatiskt etablerade kodningen. Originalets sättnings- och tryckfel korrigeras däremot först i kodningen. De förtecknas emellertid i samband med kollationeringen, i likhet med alla ”suspekta” textställen (ifall t.ex. ett ord verkar saknas i originalet). En del ovanliga

    4 Observera att TEI-filtret endast fungerar med OpenOffice.org 2, inte med den nyaste versionen

    OpenOffice.org 3.

  • 7

    specialtecken och bråktal måste också införas i samband med den manuella kodningen. Därtill kan kodningen som genererats av TEI-filtret i många fall vara onödigt fragmentarisk, dvs. svårläst till följd av att t.ex. kursiveringen av ett uttryck har kodats ord för ord. Men även om textfilerna formellt sett är TEI-kodade så är det i praktiken snarast frågan om en kodning på HTML-nivå. Det innebär att textfilerna enbart har försetts med en kodning som registrerar hur texten har gestaltats i originalet. Kännetecknade för XML och TEI-kodning är att man inte enbart kodar t.ex. att ett ord är kursiverat, utan om möjligt också varför det har kursiverats (betoning, främmande språk, namn etc.). Sådan semantisk kodning måste självfallet införas manuellt. Förutom att grafiska markeringar kodas på ett mer avancerat sätt, så kodar man i TEI vanligen också en del sådana textinslag som inte har framhävts i originalet. Det kan gälla t.ex. olika slags namn eller inslag på främmande språk. Kodningen av omarkerade textinslag fungerar som en grundkodning som möjliggör införande av länkning. Men den kan också utnyttjas för framhävande av olika slags textinslag med någon lämplig bakgrundsfärg, för inomredaktionella ändamål (t.ex. genererande av listor med inslag på grekiska) och av sökmotorer som utnyttjar XML-kodning. TEI:s mer avancerade kodning av grafiskt markerade textinslag tjänar samma syften som kodningen av omarkerade inslag, men innebär därtill att man vid visning kan välja att t.ex. ersätta spärrning med kursivering endast i vissa fall. Den manuella kodningen behövs också för allt som utgivarna tillför texterna, och för att registrera alla ingrepp som utgivarna gör i texten. Tryckfel kan förstås korrigeras också utan kodning, men TEI-kodningen möjliggör att man kan registrera var utgivarna har gjort ingrepp i texten, och hur textstället ifråga ser ut i originalet. I den mån texter normaliseras registreras också den ursprungliga ordalydelsen.5 Den manuella kodningen sker vanligen i en s.k. XML-redigerare. Vi använder oss främst av XML Copy Editor, ett gratisprogram av ”open source”-typ. Det är ett mycket enkelt och användarvänligt program, men det har ändå alla de egenskaper som behövs för införandet av kodning. En annan redigerare som ofta används för TEI-kodning heter Oxygen, det är ett mer avancerat (kommersiellt) program. Inte heller den kodning som införs manuellt i XML-redigeraren behöver i någon större utsträckning skrivas in för hand. I redigeraren finns nämligen en elementmeny, och att införa t.ex. namnkodning är därför nästan lika lätt som att kursivera ett ord i en ordbehandlare. Därtill blir en attributmeny synlig då man klickar på det ställe där attributet skall införas. Införandet av attributvärden fungerar på samma sätt. Endast i en del undantagsfall måste kodning skrivas in för hand, det kan gälla t.ex. ovanliga specialtecken som måste införas i form av kodning (s.k. entitetsreferenser) eller olika slags id:n. Vilka element, attribut och värden som ingår i menyerna bestäms av det valideringsschema som knyts till filen (på de första kodraderna, före själva TEI-kodningen

    5 Detta med undantag för små konsekvensändringar (som enbart markeras med -taggar).

  • 8

    börjar).6 Det ingår omkring 500 element i TEI, men i menyn syns alltså endast sådana element som enligt vår kodningspraxis får införas på det aktuella textstället. Om grundtexten är ett manuskript måste däremot själva texten skrivas in på datorn för hand, det samma gäller förstås också för alla andra manuskript som transkriberas. Manuskripten kan skrivas in i en ordbehandlare, och automatiskt förses med den mest elementära kodningen vid konvertering till TEI. Alternativt kan de skrivas ut direkt i XML-redigeraren, i det fallet kan kodandet underlättas av s.k. startmallar. De innehåller den kodning som finns i alla texter av en viss typ, t.ex. brev eller diktmanuskript, främst är det fråga om kodning som bör finnas i början av textfilerna. id:n som möjliggör länkning av personnamn (och eventuellt ortnamn) behöver inte införas helt manuellt, utan de införs halvautomatiskt med programmet TEI Name Selector. Programmet har skräddarsytts för vår kodningspraxis av Mikael Norrgård. Det underlättar radikalt införandet av id:n. När man öppnar en TEI-fil i programmet dyker det upp en lång förteckning över t.ex. de namn på personer som förekommer i texten. I en annan kolumn visas det sammanhang (ett par textrader) i vilket namnet förekommer, och i en tredje kolumn visas de personposter som redan är införda i databasen. Ifall den person som ett namn refererar till redan ingår i persondatabasen så krävs det bara ett par klickningar med musen för att namnförekomsten skall förses med ett för personen unikt id. I de fall då det visar sig att personen ifråga ännu inte har införts i databasen kan man lägga till en post i databasen (denna funktion är alltså integrerad i TEI Name Selector). Posten förses automatiskt med ett unikt id – kodaren behöver alltså aldrig själv hålla reda på vilka id:n som redan har tagits i bruk. A.3 XML Copy Editor

    Uppdaterad 1.3.2010

    Medan man kodar en textfil i XML Copy Editor-programmet kan man genom en enkel klickning på en blå bocksymbol uppe i verktygsraden kontrollera att kodningen är ”well-formed”, dvs. att den svarar mot de mest elementära och allmänna kraven på en XML-kodad textfil. Om man därtill har knutit ett valideringsschema till filen kan man genom att klicka på en grön bocksymbol (bredvid den blå) granska inte enbart att kodningen är förenlig med TEI, utan också att den är i enlighet med vår tillämpning av kodspråket ifråga. Version 1.2 som utkom hösten 2008 möjliggör dessutom s.k. bakgrundsvalidering (”validate-as-you-type”). I denna version har också en del programmeringsfel åtgärdats, vilket innebär att det är skäl att uppdatera till den nya versionen ifall man har version 1.1 installerad. Programmet kan laddas ner gratis på adressen:

    http://xml-copy-editor.sourceforge.net/ I den mån man skriver in kodning för hand märker man ofta genast om man skrivit fel. Detta tack vare att programmet registrerar vilka inslag i textfilen som utgör kodning av

    6 I XML Copy Editor styrs menyerna för attribut och attributvärden emellertid inte av valideringsschemat,

    utan varje attribut eller värde måste först skrivas in en gång.

    http://xml-copy-editor.sourceforge.net/

  • 9

    olika slag, och visar dem olika i olika färger. Elementnamnen färgas blå och attribut röda. Dessutom visas entitetsreferenser i rödfärgad fetstil, och redaktionella kommentarer färgas grå.7 Ifall t.ex. kodningen för kommentaren inte införs korrekt framgår det tydligt i och med att den mot förväntan inte färgas grå. Färgerna i redigeringsprogrammet gör också filerna mer lättlästa, men någon annan funktion har de inte. Osynlig fil?

    I samband med att man öppnar en ny fil i XML Copy Editor kan det förekomma att endast ett par rader är synliga. Då kan man kolla om kvadraten uppe till vänster innehåller ett plustecken: om så är fallet klickar man på den, tecknet ersätts av ett minus, och TEI-filen blir sannolikt synlig i sin helhet. Alternativt kan man välja ”Unfold tags” som hittas under ”View”-rubriken i rullgardinsmenyn. Om det här inte hjälper kan man bocka för ”Wrap Words” som också finns under ”View”. Det är i vilket fall som helst skäl att välja ”wrap words” när man öppnar en ny fil i redigeringsprogrammet. Detta eftersom det innebär att radlängden anpassas efter utrymmet på skärmen (dessa tillfälliga radbrytningar är som framgått inte betydelsebärande). I de fall då man transkriberar manuskript direkt i redigeringsprogrammet används alltså vanligen en startfil. Denna kan i och för sig sparas och öppnas som vilken fil som helst, men då måste man komma ihåg att ändra filnamnet före man sparar filen efter att ha infört kodning eller text som hänför sig till en enskild text. Ett bättre sätt är att göra startfilerna till s.k. ”templates”. Det sker genom att man helt enkelt sparar filerna i rätt mapp: Program/ XML Copy Editor/ templates/ [filnamn].xml. Efter det dyker startfilen upp som ett dokumenttypsalternativ i samband med att man skapar en ny fil (dvs. klickar på ”New” som hittas under ”File”-rubriken i rullgardinsmenyn). Text som skall kodas med hjälp av elementmenyn måste först markeras, och det går till på samma sätt som i en ordbehandlare. Text kan alltså markeras antingen med tangentbordet (shift + piltangenter) eller med musen. Observera att enskilda ord behändigt kan markeras genom att man dubbelklickar på musen. Efter att texten har markerats införs önskat kodningselement genom en dubbelklickning i elementmenyn. Elementnamn som ingår i valideringsschemat är synliga endast då markören finns på ett textställe där elementet enligt vår kodningspraxis får införas. Observera också att kodningsmenyerna kan flyttas till vänstra kanten av skärmen. Om något element saknas i menyn – till följd av att valideringsschemat är ofullständigt eller inte har uppdaterats – behöver man skriva in det för hand endast en gång per textfil. Efter att man infört elementet ifråga klickar man på ”save” (diskettsymbolen) och därefter väljer man ”Reload” som hittas under ”File”-rubriken i rullgardinsmenyn. Elementnamnet dyker då upp i kodningsmenyn. Ifall man vill införa attribut så aktiverar man markören inne i starttaggen. En attributmeny dyker då upp intill textstället ifråga, och önskat attribut kan införas genom en dubbelklickning (eller med piltangenter och enter). Dessa

    7 Elementnamnen, attributen, entitetsreferenserna och de redaktionella kommentarerna är färgade på

    motsvarande sätt i denna manual. Attributvärdena är däremot färgade med blått i manualen trots att de är svarta i XML Copy Editor.

  • 10

    menyer styrs inte av valideringsschemat, utan endast attribut och värden som tidigare har använts (i samma fil) syns i menyerna. För att attribut och värden som använts under samma kodningssession ska bli synliga krävs att man sparar filen och klickar på ”Reload”. Innan det manuella kodandet inleds är det − ifråga om stora textfiler − ändamålsenligt att kartlägga vilka namn som är frekvent förekommande i texten. Dessa kan nämligen kodas halvautomatiskt med hjälp av programmets Find & Replace-funktion. Namnet införs i Find-rutan, och i Replace-rutan placeras det innanför namnkodningstaggar. Sedan behöver man bara klicka på Find next och Replace. Därefter upprepas proceduren för ordets genitivform. För att undvika ovidkommande träffar är det skäl att ha ”match case” förkryssat (däremot fungerar det inte så bra att använda blanksteg före namnen i Find- och Replace-rutorna, detta eftersom det kan finnas automatiskt införd kodning intill namnen). ”Replace All”-funktionen (eller ”Global Replace”) kan emellertid inte användas, eftersom det skulle medföra att genitivändelserna blev utanför kodningstaggarna. XML Copy Editor stöder reguljära uttryck (regular expressions, regex), vilket eventuellt kunde utnyttjas för verkställandet av mer avancerade substitueringar. Förutsatt att en stilmall har knutits till textfilen ifråga (på de översta kodningsraderna) kan man testvisa filen (i webbläsaren) genom att klicka på jordklotssymbolen i redigeringsprogrammets verktygsrad. Längst till höger i samma verktygsrad finns en kedjesymbol. Med den kan man välja att låsa kodningen, så att man endast kan göra ingrepp i själva texten. Det har förekommit att kodningslåset kopplats på oavsiktligt. Om man avser att skriva en tagg (ett ”större än”- eller ett ”mindre än”-tecken) och en entitetsreferens (< eller >) istället dyker upp på skärmen så är det kodningslåset som har aktiverats. Trots att vi använder ett ovanligt enkelt redigeringsprogram finns det en hel del inställningsmöjligheter i rullgardinsmenyerna. Under rubriken ”View” kan man alltså välja ”wrap words” så att radlängden anpassas efter skärmen, och i samma meny kan man välja ”Hide Tags and Attributes”. Det innebär att endast själva texten är synlig, men observera att enstaka blanksteg kan saknas (eller dubbleras) trots att kodningen är helt korrekt. Kodningens innebörd beaktas inte i den här visningen. Under ”View” kan man också ändra på textstorleken. Observera att man kan klicka på ”increase” eller ”decrease” flera gånger för att ytterligare förstora eller förminska textstorleken. De flesta specialtecknen kan införas som sådana (en del ovanliga tecken måste anges som entitetsreferenser och skrivas in för hand). Under ”Insert”-rubriken väljer man ”Symbol”, och då dyker det upp en symbolruta på skärmen. I den bör man välja ”Unicode” nere till höger (istället för förhandsinställningen ”ASCII”). Sedan kan man söka efter rätt tecken i de olika kategorierna (”subsets”). Man kan ofta utgående från deras namn sluta sig till var ett visst tecken kan tänkas finnas, ofta anges det också i förteckningen över specialtecken (i den här manualen). Observera att det ofta finns flera tecken som ser ungefär likadana ut, och att det därför kan vara skäl att utgående från entiteten kontrollera att tecknet faktiskt är det som vi använder t.ex. som tankstreck eller citattecken. För att kodningen och texten ska visas på ett mindre kompakt och mera lättläst sätt kan man välja ”pretty-print” som hittas under ”XML”-rubriken. Kodningsraderna visas då också

  • 11

    med olika stora indrag beroende på var de olika elementen befinner sig i XML-filens hierarki. Starttaggar och sluttaggar som finns på olika rader kopplas till varandra med vertikala linjer (förutsatt att man inte inaktiverat ”indentation guides” i ”Options”/ ”Editor”, som hittas under ”Tools”-rubriken i rullgardinsmenyn). Indragen är enbart till för att göra filerna mera lättlästa, de är inte betydelsebärande och man behöver inte införa eller modifiera indrag manuellt. OBS: ”Pretty-print”-funktionen får endast användas innan man inleder den manuella genomgången av en fil, ifall det föreligger ett behov av att ”snygga till” en automatiskt genererad kodning. Det har nämligen visat sig att funktionen kan fördela kodningen på olika rader på ett sådant sätt att det ger upphov till överflödiga blanksteg. Dessutom ersätter ”pretty-print” entitetsreferenser för specialtecken med en wysiwyg-visning, vilket på Windows XP-datorer kan leda till att en del tecken visas som tomma kvadrater. Om man klickar på ”Tools” i rullgardinsmenyn och väljer ”Options” så dyker det upp en ruta för inställningar. I den kan man växla mellan två kategorier: ”General” och ”Editor”. I ”General” torde inga förhandsinställningar behöva ändras (kontrollera ändå att ”Remember layout on close” är förkryssat). Språket i programmets användargränssnitt kan ändras, men dessa instruktioner är skrivna för den engelskspråkiga versionen. Det finns en svensk version, men den är undermålig. I ”Editor”-kategorin kan för det mesta allt vara förkryssat. Man bör åtminstone kolla att blankstegen är synliggjorda i form av svarta punkter (”White space visible”). Det torde också vara ändamålsenligt att ha ”Intelligent backspace/ delete”-funktionen aktiverad. Den innebär att hela taggen raderas även om man bara trycker en gång på ”backspace”. Det kan kännas ovant till en början, men det underlättar nog kodandet. Det skadar inte heller att ha ”Tag completion” aktiverat, och ofta är det också skäl att ha ”Always insert closing tag” förkryssat. Det sistnämnda med undantag för de fall då man skriver in manuskripttext för hand och – av någon anledning – också skriver in en del av elementen för hand. Med ”Highlight current line” kan man välja om den kodningsrad man befinner sig på skall framhävas med färgad bakgrund eller inte. Med ”Indentation guides” avses alltså de vertikala linjer som visuellt sammankopplar starttaggar och sluttaggar, förutsatt att elementet innehåller så mycket text och kodning att båda taggarna visas i början av en rad. Observera också att man kan ändra teckensnitt i ”Editor”-kategorin. Man kan t.ex. först välja lämplig textstorlek (under ”View”-rubriken i rullgardinsmenyn) och sedan försöka hitta ett teckensnitt som känns behagligt att läsa i den textstorlek man har valt. I XML Copy Editor:n kan man ha flera filer öppna samtidigt. När man stänger programmet (och datorn) och sedan startar det på nytt så öppnas automatiskt de filer som man hade öppna när programmet stängdes. Men en viktig egenskap som man lätt kan undgå att märka är att det också är möjligt att ha två eller rentav tre filer synliga samtidigt. Detta åstadkoms genom att man placerar muspekaren över ett filnamn uppe på sidan, och klickar på musen så att man håller musknappen nertryckt. Därefter drar man filnamnet till till den vänstra, högra, nedre eller övre kanten på skärmen, så att bakgrunden delvis

  • 12

    färgas. Det framgår då av det färgade området huruvida skärmen indelas vertikalt eller horisontalt om man släpper upp musknappen. Den här möjligheten kan utnyttjas t.ex. om man vill jämföra med hur man tidigare kodat ett liknande textställe i en annan fil. Notera också att man kan ändra inställningarna på datorn så att alla TEI-filer automatiskt öppnas i XML Copy Editor:n. ********************************************

    OBS: Ifall XML-filen inte är ”well-formed” så meddelar programmet det i samband med att man sparar filen. Programmet uppger exakt var felet finns (vilken rad och hur många steg in på raden, nere till höger ser man var man befinner sig). Men eftersom det är fråga om fel inom ramen för XML-kodning (på ett generellt plan) så kan felet i relation till TEI och vår kodningspraxis mycket väl finnas långt tidigare i koden. Lokalisering av kodningstekniska fel

    Ofta uppger programmet t.ex. att -taggen i slutet av filen är ”mismatched”. Det innebär inte att det är något fel på den taggen, utan att programmet förväntar sig att något annat element ska stängas senast före -taggen. Då kan man tillfälligt skriva in

  • 13

    **********************************

    OBS: Ifråga om texter till vilka det förekommer (externa) varianter bör man alltså spara en skild fil som endast innehåller grundtexten, och som man kan arbeta vidare med när varianterna kodas.

    **********************************

    Textfilerna består av den minsta konstnärliga eller annars meningsfulla helheten, dock så att det inte blir fråga om större helheter än vad som är ändamålsenligt att visa på webben. Ifråga om fiktiva texter kan textfilerna uppdelas i enskilda dikter eller korta noveller, medan romaner och längre noveller uppdelas i kapitel. Varje brev kodas skilt för sig, dagböckerna kodas i filer med anteckningar från en månad, och föreläsningarna kodas i filer som omfattar en termin. Inget hindrar ändå att man arbetar med större texthelheter, ifall man bedömer det som ändamålsenligt, filerna kan sedan lätt delas upp i ett senare skede. De kodade textfilerna bör förses med namn som slutar på .xml (och alltså inte .tei). Observera ändå att filer som ännu skall bearbetas i OpenOffice.org tillfälligt måste ha namn med slutdelen .tei (gäller alltså de skannade och OCR-behandlade filerna, som sådana eller uppdelade i mindre helheter). Sökning i flera filer

    Eftersom utgåvan kommer att omfatta ett mycket stort antal TEI-kodade filer föreligger det ett behov av att – under arbetets gång – genomföra sökningar i flera eller många filer samtidigt. För detta ändamål har vi tagit i bruk shareware-programmet ”EditPlus Text Editor”, som kan laddas ner på adressen http://www.editplus.com/download.html. Programmet får gratis utvärderas under 30 dagar, efter det bör man köpa en licens för en billig penning. De filer som man vill söka i måste placeras i samma mapp, om de inte färdigt råkar finnas i samma. Mappen får finnas var som helst på datorn (eller på Topelius-servern). Observera att det i mappen inte får finnas andra filer av samma typ – dvs. med samma slutdel i filnamnet (t.ex. ”*.xml”) – som de man vill söka i. Man kan också välja att samtidigt söka i filer i alla underordnade mappar. Filerna bör vara i *.xml eller *.tei-format, eller också i ett enkelt textformat (*.txt). För de TEI-kodade filernas del krävs alltså ingen konvertering, medan sökningar inte kan genomföras direkt i OpenOffice.org- eller Word-filer. Men det krävs bara att man skapar en mapp för ändamålet, och sen öppnar filerna ifråga i t.ex. OpenOffice.org, och sparar i den nya mappen med ”Save as”, ”Text Encoded (.txt)”, ”Edit filter settings” och ”Unicode (UTF-8)”. Det är alltså samma tillvägagångssätt som i kollationeringsprogrammet Juxta. Förfarandet är också i stort sett det samma ifall det är fråga om Word-filer. I Word-programmet väljer man först ”save as”, sedan det enkla textformatet ”*.txt” och till sist väljer man ”annan kodning” och ”Unicode (UTF-8)”.

    http://www.editplus.com/download.html

  • 14

    I EditPlus väljer man i rullgardinsmenyn ”Search”/ ”Find in Files” (alternativt klickar man på en symbolknapp med flera pappersark). Då dyker det upp en ”Find in Files”-ruta i vilken man väljer rätt mapp (alternativt tar man fram rätt mapp längst till vänster i programmet, och väljer ”current file directory” i Find in Files-rutan). I Find in Files-rutan bör man också ange vilka filtyper man vill söka i, t.ex. ”*.txt” eller ”*.tei”. Vill man söka i flera olika filtyper används semikolon, t.ex: ”*.tei;*.xml” (båda ändelserna torde åtminstone tillsvidare förekomma bland våra TEI XML-filer). Utöver det behöver man bara ange vilken teckenföljd man vill söka efter. Därtill finns det en del inställningsmöjligheter, man kan bl.a. välja om sökningen ska göra åtskillnad mellan versaler och gemener, och om man vill söka efter teckenföljder eller enbart hela ord. Programmet stödjer också s.k. reguljära uttryck (”regular expressions”). Programmets instruktioner kan fås fram via ”Help” i rullgardinsmenyn. Välj därefter ”Help”/ ”Help Topics”/ ”Search Menu” och ”Find in Files”. Till sist måste man klicka på ”Next” uppe till höger för att ”Find in Files”-instruktionerna skall dyka upp på skärmen. (Om man klickar på ”Regular Expression” kan man se hur man gör mer avancerade sökningar). Sökningarna resulterar i långa listor, i vilka träffarna visas i ett sammanhang på ett par textrader. Man kan sedan dubbelklicka på en förekomst för att komma till det aktuella textstället i filen ifråga. TEI Header

    I motsats till TEI-kodningen i övrigt är informationen i den s.k. TEI Headern inte knuten till något visst textställe, utan den är till för att beskriva filen på ett övergripande plan. TEI Headern kan jämföras med titelsidan i ett tryckt verk. Den kan innehålla information om själva texten, dess ev. tryckta förlaga, kodningen, revideringar m.m. TEI Headern införs i början av varje TEI-fil, och kodas i ett -element samt i underordnade element för information av olika slag. TEI Headern bör i likhet med själva den kodade texten vara underordnat det s.k. rotelementet , som alltså öppnas alldeles i början av TEI-koden och stängs till sist.9 TEI Headern kan ha följande beståndsdelar: 1) en filbeskrivning som kodas i elementet

    2) en kodningsbeskrivning som införs i -elementet och också kan innehålla information om förhållandet mellan den digitala texten och dess tryckta förlaga (t.ex. om ev. normaliseringar)

    3) en textprofil, som införs i elementet och kan innehålla information om textens ämnesområde, vem eller vilka som skrivit den o.s.v.

    4) en förteckning över revideringar, som kodas i -elementet.

    9 Vi använder rotelementet (istället för ) eftersom vår kodningspraxis inte fullständigt

    överensstämmer med TEI Guidelines.

  • 15

    OBS: Av dessa fyra huvudkategorier utgör endast ett (i största allmänhet) obligatoriskt inslag i TEI Headern! I filer som innehåller variantkodning måste emellertid också -elementet ingå i TEI Headern, och behövs om det finns flera händer i ett manuskript. Informationen i de olika huvudkategorierna struktureras därtill med hjälp av följande elementtyper: a) grupperingselement (ex: , ), som innesluter ett antal element med en viss slags information

    b) deklarationer (ex: , ), i vilka redogörs för vilken kodningspraxis man följt i olika hänseenden.

    c) beskrivningar (ex: , ), som innehåller beskrivningar som antingen kan vara fritt formulerade eller anges i diverse underordnade element. Den obligatoriska huvudbeståndsdelen bör innehålla en bibliografisk beskrivning av den elektroniska texten. kan innehålla sju underelement, av vilka tre är obligatoriska: , samt . En ”minimi-TEI-Header” ser alltså ut på följande sätt:

    ... ... ...

    Observera att elementen som är underordnade bör införas i en viss ordningsföljd. Ifråga om de tre obligatoriska elementen är den rätta ordningsföljden alltså 1) , 2) och 3) . Åtminstone ifråga om korta texter som brev och diktmanuskript inför vi allmän information i databaser, och därför behövs det i stort sett endast en ”minimi-TEI-Header” i de kodade filerna. I startfilerna ingår ändå också eftersom det elementet behövs om det finns flera händer i manuskriptet. I införs ett -element i vilket anges brevets eller manuskriptets signum. I ett – som också är underordnat – uppges i elementen och vem som är ansvarig redaktör för texten ifråga. I införs endast en -tagg med innehållet Zacharias Topelius Skrifter. I uppges (i

    -taggar) Arkivsignum: se databas. Om det finns flera händer anges de i -elementet som alltså är underordnat . De enskilda händerna införs i -taggar.

  • 16

    Strukturelement

    All etablerad text bör omslutas av elementet som i sin tur bör finns inuti -elementet. De öppnas alltså i början av den etablerade texten, genast efter -elementet. De stängs sist i filen (dock före rotelementet ) i den omvända ordningsföljden .

    Texten i en TEI-fil − d.v.s. innehållet i -elementet − kan vid behov indelas i textsektioner (i kodningstekniskt hänseende) som består av t.ex. enskilda kapitel eller dikter. Detta sker med -element som kan vara antingen numrerade eller onumrerade. De numrerade elementen ... kan användas om man anser att det finns ett behov av en hierarkisk indelning av texten i större och mindre avsnitt, så att ett kapitel t.ex. alltid avgränsas med . I vår kodningspraxis har vi ändå åtminstone tillsvidare gått in för att använda enbart onumrerade -element. (Man får inte använda både numrerade och onumrerade -element i en och samma TEI-fil). I -elementet kan type-attributet användas för att ange vilken slags textsektion det är fråga om, t.ex. . Vi utnyttjar också -elementet för att ange att ett diktmanuskript är oavslutat, och för att − i en del specialfall − indela brev i en tidigare och en senare del. I bägge fallen används attributet part vid sidan av type-attributet (ex: ). I lyrikkodningen (filerna med etablerad text) avgränsas kommentardelen med hjälp av elementet ifråga. Därtill kan attributet xml:lang användas i -elementet, ifall t.ex. ett brev i sin helhet är skrivet på ett annat språk än svenska.

    Vid sidan av -elementet har vi också tagit i bruk ett -element för att koda textindelningar. I motsats till -, - och -elementen så innesluter inte någon text, utan det är ett tomt element. I vår kodning används det (i kombination med unit="part") för att registrera indelningar i avsnitt, som i originalen markeras med blankrad.

  • 17

    B Textetablering B.1 Allmänt

    Uppdaterad 27.4.2010

    Paginering och sidbrytning

    Pagineringstaggen placeras i sidbrytningen, sidnumret avser efterföljande sida (pb står för ”page break”). Utgångspunkten är att sidnumret är utskrivet, dvs. man behöver aldrig explicit ange att type="printed" (tryckta texter) eller type="written" (manuskript). OBS 1: Endast själva sidnumret (arabiskt eller romerskt) införs i pagineringskodningen. Eventuella föregående ”s.” eller efterföljande punkter utelämnas. Felaktiga sidnummer korrigeras stillatigande. Ifall ett sidnummer i ett manuskript har ändrats så införs enbart det slutliga numret (själva ändringen kodas alltså inte).

    OBS 2: Om sidnumret finns inne i ett textstycke: blanksteg efter (men inte före) pagineringstaggen! Om sidnumret finns inne i ett ord: inga blanksteg, bindestreck avlägsnas. a) originalets paginering, tryckt text

    Ifall sidnumret inte är utskrivet (men sidan ändå har beaktats i den fortsatta pagineringen) anges värdet unprinted i attributet type,10 och det outskrivna sidnumret införs i n.

    Om sidan inte beaktats vid pagineringen införs inget n-attribut. b) originalets paginering, manuskript

    Paginering som införts av författaren:

    Ifall ett enskilt sidnummer inte är utskrivet (men sidan ändå har beaktats i den fortsatta pagineringen) eller om författarens paginering kompletteras av utgivaren så anges värdet unwritten i attributet type, och det oskrivna sidnumret införs i n. Om sidan ifråga inte beaktats vid pagineringen införs inget n-attribut. Paginering införd senare av annan person:

    10

    Enligt TEI-riktlinjerna (P5) borde man egentligen använda ett ed-attribut i , men vi använder type eftersom attributvärdena syftar på såväl utgåva som enskild sidnumrering.

  • 18

    Ifall ett enskilt sidnummer inte är utskrivet (men sidan ändå har beaktats i den fortsatta pagineringen) eller om manuskriptets paginering kompletteras av utgivaren så anges värdet unwritten i attributet type, och det oskrivna sidnumret införs i n. Om sidan ifråga inte beaktats vid pagineringen införs inget n-attribut. OBS: senare in- och sammanbundna manuskript kan ha dubbel paginering: en ursprunglig av Topelius som löper per häfte, och en senare tillkommen av annan hand som löper per arkivenhet. I ett sådant fall införs bägge pagineringarna på följande sätt:

    Ifall ingendera pagineringen har införts av författaren:

    Den första pagineringsserien anges alltså som other, inte som other1! c) Paginering i ZTS:

    Efter att texten ifråga har ombrutits för den tryckta versionen så införs vår utgåvas paginering och sidbrytning i kodningen:

    (utskrivet sidnummer)

    (outskrivet sidnummer)

    (sidbrytning; sidan obeaktad vid paginering) Titlar och rubriker

    Titlar och rubriker kodas med elementet . Ifall en rubrik är fördelad på flera rader (och det inte är enbart av utrymmesskäl) används det tomma radbrytningselementet inne i . Observera att i så fall inte skall föregås eller efterföljas av blanksteg. Kapitelrubriker:

    1. En middag under den gamla goda tiden. Motton, citat etc. i anslutning till rubrik eller titel:

    [text] Rubriker på lägre nivå:

    För rubriker på lägre nivå (än den som kodas med enbart ) används , , osv. beroende på hur många rubriknivåer det finns. Verktitlar och avdelningsrubriker:

    Verktitlar kodas också med (detta eftersom vi har tagit ibruk -elementet för omnämnda verk. I -elementet anges att type="title". Avdelningsrubriker i

  • 19

    lyriksamlingar, tidigare och senare delar i romaner och andra liknande sektionsrubriker kodas som type="section".

    Ex. 1: Hertiginnan af Finland

    Ex. 2: Förra afdelningen. Kriget.

    För eventuella rubriknivåer mellan och kan , osv. användas. Verk-i-verk:

    Titlar för ”verk-i-verk” – t.ex. ”Röfvarebandets hjeltevisa.” i Läsning för barn – kodas med (”incorp” står för ”incorporated work”). *Senare införs ev. också -kodning med vilken själva verket-i-verket avgränsas.] Grafiska markeringar:

    Ifall en rubrik (eller titel) i sin helhet är grafiskt markerad (t.ex. understruken) kan attributet rend införas i direkt i . Om rubriken endast delvis är grafiskt markerad används -elementet inne i :

    Ex. 1: 1. En middag under den gamla goda tiden.

    Ex. 2: 1. En middag under [...] tiden.

    Ifall t.ex. en avdelningsrubrik är kursiverad, och man vill registrera det i kodningen, så anges både type och rend i :

    Ex. 3: Förra afdelningen. Kriget. Nytt avsnitt

    Ifall början på ett nytt avsnitt i originalet har markerats med en blankrad så kodas det enbart med (ingen blankrad skall alltså införas i kodningen). Ifall indelningen i avsnitt (i originalet) framhävs med skiljelinje eller avlångt ornament så anges det med attributet type som tilldelas värdet bar:

    (Motsvarande streck i slutet av kapitel kan betraktas som dekorationer och återges inte.) Textstycken etc.

    Textstycken kodas med

    -taggar (”paragraph”). Originalets radbrytningar kodas (med -taggar) endast i de undantagsfall då de uppfattas som betydelsebärande. Textstycken med indrag:

    Några ögonblick derefter lågo de gamle vännerne Severin Björck, benämnd Mösset, och Vincent Ek, benämnd Vågbrytaren, i hvarandras armar.

  • 20

    Textstycken utan indrag: (t.ex. i början av ett kapitel)

    Ordentlighet är en mycket berömlig dygd i alla förhållanden, men jag fruktar, att dess hemvist sällan är att söka på en författares skrifbord.

    Helt indraget textstycke:

    [textstycke]

    (Textstycken i vilka samtliga rader är indragna, t.ex. blockcitat.) Repliker i prosatext:

    – Jaså, du har varit tingsskrifvare de senare tiderna?

    Alla textstycken som inleds med tankstreck kodas med attributvärdet dialogue. Repliker som inte markeras med tankstreck (utan istället t.ex. med citattecken) kodas som vanliga textstycken. Även textstycken som inleds med tankstreck enbart i den etablerade texten (dvs. efter att normaliseringar och rättelser införts) kodas med rend="dialogue". Grafiskt markerade stycken:

    Ifall ett textstycke i sin helhet är grafiskt markerat (med t.ex. kursivering) får rend-attributet enligt vår kodningspraxis inte användas direkt i

    -elementet. Istället införs rend-attributet i ett -element:

    Ord ord ord.

    . Centrerat inslag:

    [text]

    Centrering anges alltså med attributet rend och värdet center.

    innebär att samtliga rader i stycket centreras: flera centrerade rader som utgör en enda mening eller annars kan uppfattas höra till samma stycke kan alltså införas i ett enda

    -element i vilket radbrytningar (som inte enbart beror på utrymmesbrist) kodas med det tomma elementet . Centrerade skiljelinjer:

    Vårt tidigare sätt att koda indelning i avsnitt som markerats med skiljelinje eller avlångt ornament. Använd istället -elementet, se ovan (”Nytt avsnitt”). Blankrader:

    Blankrader som inte markerar början på ett nytt avsnitt kan vid behov införas som ett tomt -element (man skall helst undvika att återge blankrader i form av tomma

    -element eftersom de inte utgör textstycken). Men observera att blankrader inte skall införas i kodningen ifall de finns t.ex. i anslutning till rubriker eller runt diktstrofer: i sådana fall kan (standardiserade) mellanrum åstadkommas i stilmallarna.

  • 21

    Centrerad underskrift, flera rader:

    Lars Anton Levonius,Regementspastor.(Sigill.)

    Observera att det inte skall vara några blanksteg kring -taggarna. (I brevkodningen standardiseras avslutningar och underskrifternas placering.) Högerställt inslag:

    [text]

    Fotnoter, slutnoter etc.

    Not som tillhör originalet:

    Vid denna tid fortfor man ännu ofta att med Finland mena endast landets sydvestra del, det sedan så kallade Egentliga Finland. Ett id bör vara unikt för hela XML-filen, därför används för originalets (fot)noter id:n med prefixet ftn och löpande numrering som börjar med 1. Om noten i originalet är belägen längst ner på sidan anges värdet foot i attributet place. Även för noter i manuskript som är införda på samma sida som nothänvisningen används attributvärdet foot, oberoende av om noten har skrivits uppe eller nere på sidan eller i vänstra eller högra marginalen. Om noten är placerad i slutet av texten så är attributvärdet end. Med värdet true i attributet anchored anges att noten är förankrad (t.ex. med asterisk eller nummer) i det aktuella textstället. (För anteckningar som inte har knutits till ett visst textställe används anchored="false".) -elementet använder vi också för kodning av utgivarkommentarer, men det förvalda värdet är att noten tillhör originalet. Man behöver alltså aldrig explicit ange att type="author", type="original" eller motsvarande (däremot anges det ifråga om utgivarkommentarer att type="editor"). Fotnot med asterisk:

    I OpenOffice.org har vi infört fotnoter med asterisk på följande sätt:

    brännt på bålet min moder och min mormoder och min moders mormoder?*)45

    Den tillagda numreringen behövs bl.a. för att TEI-filtret automatiskt ska kunna lägga in rätt id i koden, men (den synliga) numreringen bör avlägsnas från den slutliga koden (efter att odt-filen konverterats tillbaka till TEI). Före ett band ska tryckas måste vi sedan införa flera asterisker på de ställen där det blir flera fotnoter på samma sida. I den integrerade visningen (med scrollbara dokument) i e-versionen är det här inget problem: då visas fotnoterna om man pekar på en symbol i texten.

    Ex. 1:

    Ex. 2: OBS: id-numret behöver inte sammanfalla med (det eventuella) numret i n som är avsett för visning.

  • 22

    Musikaliska noter

    Musikaliska noter kodas inte, utan de införs i form av bilder. Listor

    Listor kodas i ett -element med underordnade -taggar.

    Ex:

    1) Statsrådet m.m. Grefve L. Manderström, Stockholm. 2) Friherrinnan v. Beskov, Sthm. 3) Doktor Herm. Sätherberg, Sthm. 4) Professor Aug. Malmström, Sthm. 5) Doktor C. A. Wetterbergh, Linköping. 6) Prosten G. H. Mellin, Helsingborg, Norra Wram. 7) Direktör J. A. Josephson, Uppsala.

    Ifall hela listan är indragen (i originalet) anges det i starttaggen på följande sätt: . Om listan är försedd med en rubrik anges den i ett -element som införs genast efter starttaggen :

    listrubrik ... OBS: Ifall listan överskrider en sidgräns kan ett -element införas inne i listan, men endast efter att ett -element stängts och före det följande öppnats. Tabeller

    Tabeller kodas i -elementet och i starttaggen anges antalet rader och kolumner. Efter starttaggen införs eventuell tabellrubrik i . Tabellens fält kodas i -element som grupperas radvis med -elementet. Tomma fält anges med . Rubrikerna för enskilda rader eller kolumner anges med attributet role och värdet label. Att en rad innehåller kolumnrubriker kan anges med . Radrubriker (i den vänstra kolumnen) måste definieras i enskilda fält.

    Ex:

    Topelius-tabell Kolumnrubrik 1 Kolumnrubrik 2

  • 23

    Radrubrik 1 1 2 Radrubrik 2 3 4

    Topelius-tabell

    Kolumnrubrik 1 Kolumnrubrik 2

    Radrubrik 1 1 2

    Radrubrik 2 3 4

    Tabellexempel från Topelius korrespondens:

    Honorariet utgörande för ark 1–14 Rubel 150 –

    samt för de öfriga 3 ¼ ark à 12 Rubel 39 –

    Summa Rubel 189 –

    Kodas på följande sätt:

    Honorariet utgörande för ark 1–14 Rubel 150 – samt för de öfriga 3 ¼ ark à 12 Rubel 39 – Summa Rubel 189 – Ifall tabellen (i originalet) inte har några linjer runt fälten så införs attributet rend med värdet noBorder i -elementet:

    Ex:

    Det förvalda värdet för rend är alltså att fälten är avgränsade med linjer.

  • 24

    Kalkyler av olika slag kan också kodas som tabeller: F.mk. 3,540;-

    –〃– 27,44 ―――――――――― Sum. 3,567.44 Sådana här kalkyler måste förstås kodas med rend="noBorder" i , men därtill måste det långa strecket införas i en cell som överskrider kolumngränserna och alltså är lika bred som hela raden. Ifall tabellen – som i det här fallet – är tre kolumner bred så bör det i anges att cols="3". Själva strecket åstadkoms genom att man i samma -tagg inför rend="botBorder" (det är alltså fråga om en tom cell). Exempeltabellen kodas alltså i tre kolumner och fyra rader på följande sätt:

    F.mk. 3,540;-

    –〃– 27,44 Sum. 3,567.44 OBS 1: Ifall tabellen överskrider en sidgräns kan ett -element införas inne i tabellen, men endast efter att ett -element stängts och före det följande öppnats.

    OBS 2: Eftersom det kan förekomma små kalkyler inne i textstycken har vi tillåtit att används innanför

    -taggar (det är tillåtet också enligt TEI-riktlinjerna). Men visningen av sådana tabeller kan vara problematisk, så inför en redaktionell kommentar efter tabellkodningen. Klamrar i tabeller:

    Eftersom cellinnehållet visas vänsterställt kan klamrar som utsträcker sig över två eller flera rader lätt byggas upp med hjälp av de ”bracket pieces” som ingår i Unicode-kategorin Miscellaneous Technical. Ifall det bara är två rader som sammankopplas används en s.k.

  • 25

    vänstermustasch (23B0) och en s.k. högermustasch (23B1). De bör införas som entitetsreferenser d.v.s. ⎰ för övre halvan, och ⎱ för nedre halvan. Vid behov kan vi också ta i bruk klamrar som sammankopplar innehållet på tre rader (men de bör i så fall införas i förteckningen över specialtecken). B.2 Grafiska markeringar

    Uppdaterad 24.10.2010

    Om en grafisk markering i originalet står för betoning – emfas – av ett eller flera ord bör man alltid koda det med -elementet (och alltså inte med ). Inne i -elementet används universalattributet rend för att registrera på vilket sätt emfas har markerats i originalet. I stilmallar kan man sedan ange att kodningens spärrade stil visas som kursivstil (om det låter sig göras utan att någon betydelsebärande distinktion går förlorad). Inslag på främmande språk bör alltid kodas. Det sker med attributet xml:lang som kan införas i ett särskilt -element, men som också får införas direkt i några andra element (se nedan). Ofta är inslag på främmande språk grafiskt markerade i originalet – t.ex. med kursivering – men xml:lang-kodning bör alltså användas också om så inte är fallet. Elementet bör användas då det varken är fråga om en betoning, ett textinslag på främmande språk eller ett namn som kodas. -elementet används alltid då man inte kan bedöma vad den grafiska markeringen står för. Universalattributet rend bör användas i samtliga element som används för grafiska markeringar (alltså , och ). Inga s.k. förvalda värden (”default values”) är i bruk ifråga om dessa tre element, utan rend bör alltid anges! Betoningar

    Kursivering:

    men de trodde henne. Understrykning:

    [text] Dubbel understrykning:

    [text] Streckad understrykning (flera korta streck):

    [text]

  • 26

    Fetstil:

    År 1741 infördes Fetstil & kursivering:

    [text] Spärrad stil:

    men detta ingenting fick av hans Spärrat & kursiverat:

    veta huru man Inringat:

    [text] Större handstil:

    [text] Inverterad markering av betoning:

    men de trodde henne.

    Ifall texten i övrigt är t.ex. kursiverad, och ett enskilt ord (enskilda ord) betonas genom t.ex. ”icke-kursivering” (s.k. rak stil) så stängs -elementet före textstället ifråga, ordet eller orden innesluts i ett -element utan rend-attribut, och sedan öppnas ett nytt -element i vilket det anges att rend="italics". Främmande språk

    I -elementet (eller i annat element i vilket xml:lang får införas) anges förutom eventuella grafiska markeringar i originalet också vilket främmande språk det är fråga om. De vanligast förekommande språken anges med följande förkortningar:

    cel keltiska dan danska eng engelska est estniska fin finska fre franska ger tyska gre grekiska ita italienska lap samiska lat latin nor norska oic fornisländska

  • 27

    rus ryska spa spanska

    Förkortningarna utgör värden för attributet xml:lang. Ifall man inte kan fastslå vilket språk det är fråga om skall man inte införa språkkodning (men man kan införa en redaktionell kommentar – och senare kanske en utgivarkommentar – i vilken man anger att man inte har kunnat identifiera språket). I fall det förekommer textinslag på andra främmande språk än de ovannämnda så anges det med de tre första bokstäverna i språkets engelska namn (och förkortningen bör införas i denna kodningsmanual).

    Ex. 1 Kodning av enskilda ord på främmande språk:

    om min gentle-flower befaller det

    Ex. 2 Kodning av ett helt textstycke skrivet på ett främmande språk:

    Pax et Aeternum foedus!

    Pax et Aeternum foedus!

    I det senare fallet är inslaget på främmande språk grafiskt markerat, och måste användas eftersom rend − i motsats till xml:lang − inte får användas direkt i

    -elementet. Skiljetecken kan lämpligen inkluderas i xml:lang-kodningen ifall hela den föregående satsen är på ett främmande språk, eller ifall det är ändamålsenligt med tanke på kodningen av en grafisk markering.

    Ex. 3 Kodning av ett namn på främmande språk: i landet Suomi ... Ifall flera ord (på främmande språk) efter varandra är spärrade införs de alltid i ett enda , och rend anges alltså endast en gång för hela uttrycket (eller uppräkningen av ord på främmande språk). Detta oberoende av om blankstegen mellan orden ser spärrade ut eller inte i originalet. Förutom i

    får xml:lang i vår kodning användas också i strukturelementen och samt i namnkodningselementen , och . Även om xml:lang inom ramen för TEI är ett s.k. universalattribut så begränsar vi alltså användningen till dessa element. Detta för att underlätta visning och validering av filerna. Ifall inslaget på främmande språk sammanfaller med innehållet i något annat element än de ovannämnda används innanför elementet ifråga. Ex. 4 Kursiverad text i vilken ord på främmande språk har markerats med rak stil: om min gentle-flower befaller det

    Elementet stängs alltså före textstället ifråga, ordet eller orden innesluts i ett -element utan rend-attribut, och sedan öppnas ett nytt -element i vilket det anges att rend="italics".

  • 28

    Namn på personer, platser och verk

    Samtliga grafiskt markerade namn på personer, platser och verk förses med namnkodning, som ifråga om skannade grundtexter ersätter automatiskt genererad - eller -kodning. Ifall ett manuskript fungerar som grundtext behöver man ändå inte koda namn som har strukits.

    OBS: se även E.1: Omarkerade textinslag/ Namnkodning (namn på personer, platser och verk kodas även om de inte är grafiskt markerade i originalet). Ex. 1: Borgå Geografiskt namn som är grafiskt markerat (med spärrning) i originalet.

    Ex. 2: ... Hamlets ... Inverterad markering av verktiteln i originalet (t.ex. kursiverat förord i vilket titeln har utmärkts med rak stil).

    Ifall det är fråga om en tryckt grundtext så ersätts det automatiskt kodade med t.ex. . Ifråga om grafiskt markerade namn är huvudregeln att kodningen avgränsas i överensstämmelse med markeringen i originalet:

    Ex. 1: ... men öfverste Andersson hade ... I exemplet ovan har alltså endast Andersson spärrats i originalet. Eftersom Andersson är ett så vanligt namn kunde man emellertid också välja att inkludera titeln i namnkodningen (se exempel 3).

    Ex. 2: Läsning för barn I-IV I exemplet har endast Läsning för barn kursiverats i originalet.

    Ex. 3: Borgå län Här är alltså endast Borgå spärrat i originalet men namnkodningen har avgränsats till Borgå län. I sådana här fall är huvudregeln att man bör använda – och inte t.ex. – innanför namnkodningen eftersom man redan i (eller något annat namnkodningselement) har angett vad den grafiska markeringen står för. (Men ifall län var grafiskt markerat för att betona att det inte är fråga om Borgå stad kunde självfallet användas innanför namnkodningen.) Det kan i vissa fall vara motiverat att inkludera mera text i namnkodningen än det som är grafiskt markerat: det som kodas kanske annars blir intetsägande eller missvisande. Men så stor betydelse har avgränsningen inte, och kodningen bli mindre svårläst om man avgränsar i enlighet med originalets grafiska markeringar. Med tanke på länkningen har avgränsningen ingen annan betydelse än att man måste peka på Andersson och inte på öfverste om man vill få fram personuppgifter på officeren ifråga. Men om man befinner sig i ett visningsläge i vilket namn framhävs med färgad bakgrund så framkommer det hur namnkodningen har avgränsats, och även annars ter det sig naturligt att peka på det som är t.ex. kursiverat i den etablerade texten. I visningslägen som framhäver namn med

  • 29

    bakgrundsfärg så kan det kanske vara till viss fördel att man genast märker att det är fråga om översten Andersson och inte vilken Andersson som helst. Övriga markeringar

    Kursivering av ett helt textstycke:

    Förra afdelningen. Kriget.

    Kursivering av enskilda ord:

    Zacharias Topelius Understrykning:

    [text] Dubbel understrykning:

    [text] Fetstil:

    [text]

    Fetstil & kursivering:

    Förra Afdelningen Spärrad stil:

    Zacharias Topelius Spärrat & kursiverat:

    [text] Inringat:

    [text] Större handstil:

    [text] Upphöjd stil (”superscript”):

    Text i originalet: 25te April Kodas: 25te April Inverterade markeringar:

    ... Hertiginnan af Finland ...

  • 30

    Ifall texten i övrigt är t.ex. kursiverad, och ett enskilt ord (enskilda ord) markeras genom ”icke-kursivering” (s.k. rak stil) så stängs -elementet före textstället ifråga och ett nytt -element öppnas genast därefter. Universalattributet rend

    rend är ett s.k. universalattribut, vilket innebär att det inom ramen för TEI får användas i alla element i vilka det kan tänkas behövas. Men eftersom användningen av rend ändå måste beaktas när man gör upp stilmallarna så är det motiverat att begränsa användningen av attributet ifråga till endast vissa element. Det här berör främst (typo)grafiska markeringar som kan anges med samma attributvärden i olika element (rend används ju också för att registrera annat än dessa markeringar, t.ex. styckeindrag). Attributet rend kan införas direkt i ett element om den grafiska markeringen står i samband med det som definieras i elementet, t.ex. om det är fråga om en rubrik (), ett namn (t.ex. ) eller ett ord eller uttryck på främmande språk (). Om man alltså uppfattar att ett namn är kursiverat uttryckligen för att det är ett namn används rend direkt i t.ex. (namnelementet ersätter alltså -elementet i de fall då man arbetar med en skannad och automatiskt kodad text). Eftersom t.ex. understrukna tillägg förekommer så sällan är det ändamålsenligare att koda än . Annars skulle man i stilmallarna vara tvungen att beakta att attributet ifråga också kan förekomma i , , , , , o.s.v. Dessutom blir kodningen exaktare om man begränsar användningen av rend så att tex. betyder att den markerade texten är spärrad uttryckligen för att det är fråga om ett geografiskt namn. OBS 1: rend kan alltså ifråga om kursiveringar etc. införas direkt endast i , , , , , , , och .

    OBS 2: Ifall ett stycke är kursiverat i sin helhet (t.ex. i ett förord), och enskilda ord dessutom är spärrade så bör det kodas:

    Ord ord ord ord ord ord ord ord ord.

    . XML är visserligen hierarkiskt uppbyggt, men i vår kodning betyder rend="expanded" att den markerade texten endast är spärrad, alltså upphävs det rend-värde som har angetts på en högre nivå, i praktiken i innanför

    . B.3 Enskilda tecken

    Uppdaterad 24. 10. 2010

    Förbjudna tecken

    Tecken som har en särskild betydelse inom ramen för XML kan inte införas som sådana ifall de ingår i själva texten. De anges istället med s.k. entitetsreferenser: & införs som & (eng. ”ampersand”) < införs som < (eng. ”less than”)

  • 31

    > införs som > (eng. ”greater than”) ' införs som ' (eng. ”apostrophe”) " införs som " (eng. ”quotation mark”)

    Men vi använder inte raka citattecken ( ' och " ) i texterna utan s.k. gåsögon ( » ). Observera att man i kodningen (dvs. för attributvärden) bör använda raka citattecken, inte typografiska. I praktiken är det alltså endast tre förbjudna tecken som vi måste införa med entitetsreferenser. Ifall det är fråga om ett tryckt original som skannas, kollationeras i OpenOffice.org och sedan konverteras med TEI-filtret så ersätts de förbjudna tecknen automatiskt med entitetsreferenser. Entitetsreferenser består av ett entitetsnamn (eller tecknets Unicode-nummer) som föregås av ett &-tecken och efterföljs av ett semikolon. Ex. 1: &

    Entitetsreferens som innehåller entitetsnamn. Ex. 2: >

    Entitetsreferens med ett hexadecimalt Unicode-nummer som bör föregås av #x. ”Gärdsgården” anger att det är fråga om ett nummer, och bokstaven x anger att numret ifråga är hexadecimalt. OBS: För de förbjudna tecknen använder vi entitetsnamn (som i ex. 1). Specialtecken

    De flesta specialtecken som vi har användning för kan införas som sådana i TEI-filerna, dock inte alla tecken som ingår i Unicode. I avsnittet H.2 finns en förteckning över tecken som ser ut som de ska i webbläsaren, och som därmed kan införas som sådana. Observera att också kyrilliska och grekiska bokstäver kan införas som sådana, även om de inte ingår i förteckningen (ev. arabiska bokstäver torde vi däremot vara tvungna att införa i form av entitetsreferenser). När man inför specialtecken i XML-redigeraren bör man ändå vara noga med att man inför rätt tecken, och inte något annat tecken som ser ungefär likadant ut. Även ifråga om tecken som måste anges med numerisk entitetsreferens är det till fördel om alla alltid använder samma tecken för samma ändamål, därför finns det i H.2 också en förteckning över sådana tecken. Ifall ett tecken kan införas som sådant bör man också helst göra det, och alltså inte använda entitetsreferens. Detta för att TEI-filerna skall bli så lättlästa som möjligt, med tanke på det fortsatta redaktionella arbetet och kanske också med tanke på användare som vill studera den kodade filen. Det ingår ett ytterst stort antal tecken i uppsättningen Unicode (för närvarande 107 296). I XML-redigeraren ser man det hexadecimala Unicode-numret på tecknet som man står i beråd att införa, och det är skäl att kontrollera att det faktiskt är fråga om t.ex. ett vanligt

  • 32

    tankstreck och inte något annat streck som ser liknande ut. Det gör man genom att jämföra med Unicode-numret för det tecken man är ute efter i förteckningen över specialtecken. Om man behöver införa ett specialtecken i XML Copy Editor så klickar man på ”Insert” i rullgardinsmenyn och väljer ”Symbol”. Om man inte ändrar på inställningarna syns endast de (special)tecken som ingår i den betydligt mindre teckenuppsättningen ASCII. Ifall man inte hittar det tecken man vill införa ändrar man inställning till Unicode. De otaliga tecknen i Unicode är indelade i s.k. ”subsets” och det lönar sig att fundera på vilken kategori som tecknet ifråga kan tänkas höra till. Som tankstreck använder vi en s.k. ”dash” (−) som har Unicode-numret 2013 och hittas i Unicode-kategorin ”General punctuation” (observera att om det hexadecimala Unicode-numret börjar med två nollor är de inte nödvändigtvis utskrivna i XML-redigeraren). Det (dubbla) typografiska citattecken som vi använder har namnet rdquo och numret 201D. Det enkla typografiska citattecknet (apostrofen) betecknas rsquo och har numret 2019. Även de båda citattecknen ingår i Unicode-kategorin ”General punctuation”. Som upprepningstecken används en ”ditto” med entiteten 3003 (hittas under ”Cjk symbols and punctuation”). Det kan vid behov kombineras med tankstreck före och efter. Ifall man behöver införa ett specialtecken som inte ingår i förteckningen ska man försäkra sig om att tecknet kan användas som sådant. Detta sker genom att man (via XML-redigeraren) öppnar filen i webbläsaren. Om tecknet blir osynligt eller inte ser ut som det borde så måste det införas i form av en entitetsreferens (filen måste ha ett namn som slutar på .xml för att den skall kunna öppnas i webbläsaren). OBS 1: Ifråga om specialtecken använder vi inte namnet i referensen utan det hexadecimala Unicode-numret (ex. œ). OBS 2: Specialtecken kan också införas med hjälp av Charmap-programmet, som ingår i operativsystemet. Det öppnas genom att man synliggör Start-menyn (dvs. klickar på Windows-symbolen nere till vänster) och skriver in ”charmap” i fältet ”Sök bland program och filer”. Därefter kan man kryssa för ”Avancerad vy”, och i ”Gruppera efter:” välja ”Unicode-underintervall”, dvs. det som här kallas Unicode-kategorier (för att lättare hitta ovanliga specialtecken). Man dubbelklickar på ett tecken för att kopiera det, och inför det sedan på det aktuella textstället med ctrl+v. Hårt blanksteg & smalt hårt blanksteg

    Bl.a. ifråga om tusental som skrivs med blanksteg och tal som efterföljs av procenttecken måste man förbjuda radbrytning. Det sker genom att man ersätter det vanliga blanksteget med entitetsreferensen för antingen (vanligt) hårt blanksteg eller smalt hårt blanksteg. Vanligt hårt blanksteg (eng. ”no-break space”) ingår i Unicodes kategori Latin-1 Supplement, och har entitetsreferensen  . Det används t.ex. före procenttecken: 5 % bör alltså införas som 5 %.

  • 33

    Det är iofs också möjligt att införa hårt blanksteg som sådant i XML-redigeraren, men med tanke på senare granskningar av kodningen är det bättre att det tydligt framgår att hårt blanksteg har införts på textstället ifråga. (Hårt blanksteg skiljer sig visserligen en aning från ett vanligt dito åtminstone i XML Copy Editor eftersom det inte representeras av någon punkt trots att man har valt inställningen ”white space visible”.) Smalt hårt blanksteg (eng. ”narrow no-break space”) finns i Unicode-kategorin General Punctuation, och har entitetsreferensen  . Det används (åtminstone) för tusental som skrivs med blanksteg: 5 000 införs alltså i TEI-filerna som 5 000. Bråktal

    De vanligaste bråktalen kan införas som sådana, dvs. som ett enskilt tecken. Det här gäller för följande bråktal: ½, ¼, ¾, ⅓, ⅔, ⅛, ⅜, ⅝ och ⅞. Därtill finns det tecken för femtedelar och en sjättedel samt fem sjättedelar. Dessa syns emellertid inte i XML-redigeraren (och inte heller i ordbehandlare) och därför är det skäl att införa dem i form av en entitetsreferens:

    Ex. 1: en femtedel införs som ⅕

    (Se förteckningen över specialtecken som måste anges med numerisk entitetsreferens.) Jämna åttondelar, alla sjättedelar förutom de ovannämnda och andra ovanliga bråktal måste återges som en kombination av flera tecken eller entitetsreferenser (inga blanksteg!). Det finns ett speciellt snedstreck för ändamålet, nämligen ”fraction slash” med entitetsreferensen ⁄. Det föregås av en eller flera siffror i upphöjt läge (”superscript”) och efterföljs av en eller flera siffror i nedsänkt läge (”subscript”). Siffrorna ifråga finns i Unicodes kategori ”Superscript and subscript”. De syns inte i XML-redigeraren och bör därför införas i form av entitetsreferenser. Detta med undantag för tvåan och trean i upphöjt läge (”superscript”) som ingår i kategorin ”Latin-1” och därmed kan införas som sådana. Snedstrecket (som lutar litet mer än det vanliga) hittas i ”General Punctuation”. Det kan införas som sådant, men om man vill vara konsekvent kan man införa hela bråktalet i form av entitetsreferenser (då ser man också tydligt att det är rätt snedstreck som har använts). Ifall man inför snedstrecket som sådant bör man vara uppmärksam med att det inte blir något blanksteg före eller efter tecknet ifråga.

    Ex. 2: 2/7 införs som a) ²⁄₇

    b) ²⁄₇ eller

    c) ²⁄₇

    Ex. 3: 6/8 införs som a) ⁶⁄₈ eller

    b) ⁶⁄₈ OBS 1: Det finns också ett skilt tecken med täljaren 1 och snedstrecket, nämligen ”fraction numerator one” med entitetsreferensen ⅟. Det finns i Unicodes kategori ”Number

  • 34

    Forms”, och bör införas i form av en entitetsreferens eftersom det inte syns i XML-redigeraren.

    Ex. 4: För att koda 1/9 behövs alltså endast två entitetsreferenser: ⅟₉ OBS 2: I de sällsynta fall då det ingår ett kommatecken i täljaren och/eller nämnaren (tal större än 999) så används ett vanligt kommatecken som innesluts i - eller -kodning. Alternativt kan man använda vanliga siffror, och inkludera täljaren och nämnaren i sin helhet i respektive . B.4 Utgivarens ändringar

    Uppdaterad 30.3.2009

    Rättelser

    Utgivarens rättelser anges i ett -element som i sin tur omsluts av ett -element. Genom att använda -elementet kan man i samma fil koda såväl grundtexten – med alla dess tryckfel – som den etablerade texten med korrigeringar av uppenbara fel. (I den mån normaliseringar införs med enkel kodning − se nedan − kan grundtexten emellertid inte visas som sådan). Skrivningen i grundtexten (originalet) återges i elementet (latin för ”så”). Ex: Emellertid synas dessa korpser icke varit kompletta; när man afräknar de sjuka och de vid Martila qvarlemnade, torde Bondes upgpift, uppgift, som beräknar svenska styrkan till 3,200 man, komma sanningen temligen nära. Med hjälp av stilmallar kan man sedan välja om man vill visa grundtexten med alla tryckfel, eller den etablerade texten med dess korrigeringar. I -elementet anges med attributet resp (”responsibility”) initialerna för den som infört ändringen. Rent tekniskt sett har det ingen betydelse i vilken inbördes ordning - och -elementen införs, men kodningen blir lättare att granska om vi alltid inför originalets text först. Ifall pagineringskodningen hamnar innanför -elementet bör den införas i såväl - som -elementet. Observera att -elementet endast används för våra korrigeringar, inte för ändringar som tillhör textkällan (manuskriptet). För ändringar som – av Topelius eller någon annan – införts i textkällan används bl.a. elementen , och (se avsnitt om ändringar i manuskript). Ifall -elementet vid något enstaka tillfälle blir tomt så bör det anges explicit i kodningen:

    Ex: −

  • 35

    Om det är uppenbart att det finns ett fel i grundtexten, men det inte är lika entydigt hur felet ska korrigeras, så kan man stödja sig på ett annat textvittne (s.k. emendation) och ange att man gjort det i attributet source inne i elementet :

    [fel] [emendation] Ifall ett enskilt personnamn − i strid med den allmänna praxisen i originaltexten − är grafiskt markerat när det förekommer andra gången så kodas korrigeringen på följande sätt:

    Jakob Keith Jakob Keith Rättelser i originalet

    Ifall det finns en rättelseförteckning i början eller slutet av originalet så införs rättelserna ifråga, och förses med -kodning i vilken det anges att textstället har korrigerats i enlighet med rättelsen i förteckningen:

    [korrigering] OBS: I sådana här fall registreras felen inte i kodningen, och -elementet behöver därmed inte användas! Men beträffande avgränsning av kodning gäller samma principer som för -kodning (se nedan). Normaliseringar

    Små konsekvensändringar som normalisering av tusental, ändrad ordningsföljd ifråga om a) skiljetecken och notmarkering eller b) citattecken och interpunktion samt tillagda citattecken (om det är fråga om ett normaliseringsingrepp, inte en korrigering av ett entydigt fel) förses med enkel kodning dvs. de markeras enbart med -taggar.11

    Ex. 1: ”Åh prat, att kusin kan säga!” inföll ...

    (Ett citattecken har införts som normaliseringsåtgärd.)

    Ex. 2: hade 5 000 besökare

    (I samband med normalisering från 5,000 eller 5000 till 5 000 bör entitetsreferens för smalt hårt blanksteg införas.) Övriga normaliseringar införs däremot med dubbel kodning, dvs. de kodas i ett -element. Innanför -taggarna registreras originalets text i ett -element, och motsvarande text i normaliserad form införs i ett -element (”reg” står för

    11

    Den enkla kodningen innebär alltså att vi inte registrerar hur textställena ser ut i originalet, men normaliseringarna införs ändå i en tabell med utgivarens ändr