Uživatelská editace - Přepis OCR a Segmentace

Systém RETROBI nabízí uživatelům možnost upravovat podoby textového přepisu lístku, čímž umožňuje průběžně zpřesňovat vyhledávání a okamžité získání validních a formátovaných dat pro export. Uživatelská editace je přístupná registrovaným uživatelům a je koncipována jako dvoustupňová: lze volit mezi přepisem OCR a segmentací lístku.

Výchozí textová data v systému tvoří automaticky získané OCR přepisy jednotlivých lístků, které samozřejmě vzhledem k jejich různorodosti mohou mít velmi rozdílnou kvalitu, což se pak zpětně odráží v možnostech vyhledávání v textových datech. Údaje z ručně psaných lístků či lístků se špatnou obrazovou kvalitou (průklepový papír, vpisky atp.) tak nemusí být pro vyhledávání vůbec dostupné. Ambicí systému RETROBI je nabídnout uživatelům možnost korigovat prezentovaná data a korigovaná data nabízet k okamžitému využití. Přepisy OCR či segmentace lístků tak mohou výrazně napomoci jak lepším možnostem vyhledávání, tak lze jejich pomocí získat přehlednější a kvalitnější podobu exportovaných dat.

Přepis OCR

Základní úrovní je editace OCR přepisu lístku. Editační okno má registrovaný uživatel k dispozici u každého jednotlivého lístku i s předvyplněnou stávající podobou OCR přepisu lístku. V editačním okně může uživatel text OCR přepisu korigovat a následně uložit do systému.

Momentem uložení do systému získá lístek status "Přepsaný". V nově vytvořeném přepisu je možno vyhledávat a je možno jej přes funkci schránka exportovat v libovolné rešerši. Zároveň je o tomto automaticky informován administrátor systému, který v případě správného přepisu může lístek uzamknout a pro další přepis uzavřít. Do této doby je u lístku připojena informace, že byl editován uživatelem, a je možno jej do definitivního uzamčení nadále editovat.

Přehled základních pravidel pro přepis

  1. Lístky, prosím, přepisujte kompletní a v diplomatické podobě, tj. znak za znak, včetně případných ručních vsuvek a sigly excerptora. Opravujte jen zcela evidentní chyby a překlepy.
  2. Zvláštní pozornost, prosím, věnujte přepisu znaků, na nichž je založena segmentace, tj. rozmístění a podobě závorek, a znaku "=" (musí být vždy na druhé pozici v bibliografické citaci bez mezer).
  3. Psaní závorek sjednocujte na hranaté, pakliže se jedná o evidentní doplněk excerptora, tj. zejména u doplnění jazyka překladu, jména osoby kryté šifrou či pseudonymem či jednoslovné charakteristiky článku na konci názvového údaje.
  4. Pro vydělení segmentů "Bibliografický údaj" a "Anotační část" není typ použité závorky rozhodující.

Segmentace

Vyšší stupeň uživatelské editace tvoří tzv. segmentace. Ta vychází ze základního členění popisného bibliografického údaje na lístku do základních částí: názvových a autorských údajů, bibliografické citace a anotace/věcného popisu (srov. Struktura dat na lístku a Typy lístků.

Segmentace se provádí ve stejném okně jako editace. Vložením znaku | (pravý Alt+W nebo Alt+124, popř. je k dispozici na panelu pod editačním oknem) do textu přepisu může uživatel na lístku vydělit jednotlivé segmenty: záhlaví, názvovou část, bibliografický údaj, anotační část a siglu excerptora (viz Struktura dat na lístku). Po odeslání segmentace systém automaticky vyhodnotí její správnost a případně rozčlení textová data na lístku do příslušných polí.

Je-li segmentace úspěšná, lístek je okamžitě k dispozici pro detailnější vyhledávání v příslušných polích a při exportu nabízí přehlednější textovou podobu přepisu (segmenty následují v pevném pořadí a každý začíná na samostatném řádku). Administrátoři systému jsou o proběhlé segmentaci informováni automaticky, a pokud ji schválí, je lístek pro další uživatelské úpravy uzamčen a je vygenerován syntetický/krycí lístek.

Typy segmentů a jejich vymezení

Do editačního okna je možno dle typu lístku vložit 3 až 4 segmentační znaky (na začátek a na konec textu OCR přepisu se segmentační znak nevkládá)

1) Záhlaví
  • nachází se v levém horním rohu lístku, obvykle osobní jméno
  • segmentační algoritmus jej identifikuje jako segment tvaru "TEXT|"
2) Autorské/názvové údaje
  • obvykle druhý segment v pořadí, začíná jménem autora článku, obsahuje název článku, případně incipit a údaje o dalších autorských odpovědnostech (překladatele atp.), končí pravidelně jednoslovnou charakteristikou textu v hranatých závorkách
  • segmentační algoritmus jej identifikuje jako segment tvaru "|TEXT|"
3) Bibliografický údaj
  • pravidelně v závorkách, přičemž prvním znakem po závorce bez mezery je "=", obsahuje název periodika a další údaje o lokaci článku (rok vydání, ročník, číslo, datum, strana)
  • segmentační algoritmus jej identifikuje jako segment tvaru "|+závorka+=+TEXT|"
4) Anotace/věcný popis
  • obvykle čtvrtý v pořadí a v závorkách, obsahuje stručnou anotaci článku
  • segmentační algoritmus jej identifikuje jako segment tvaru "|+závorka+TEXT|"

U anotace se vyskytují dvě výjimky:

a) "Prázdná anotace"
  • v některých případech anotace chybí, tehdy píšeme dva segmentační znaky za sebou
  • segmentační algoritmus tento případ identifikuje jako segment tvaru "||"
b) Referáty
  • u referátů může být anotace druhým segmentem na lístku v pořadí a anotace (tj. bibliografický údaj o popisované knize) není vydělena závorkami; názvové údaje pravidelně začínají kombinací "Rf";
  • segmentační algoritmus u daného lístku identifikuje segment tvaru "|Rf+TEXT|" jako názvové údaje a segment tvaru "|TEXT|" jako anotaci
5) Excerptor
  • sigla excerptora se nepovinně nachází v pravém dolním rohu
  • segmentační algoritmus ji identifikuje jako segment tvaru "|TEXT", tj. segment bez segmentačního znaku na konci

Rozcestník