Retrospektivní bibliografie české literatury 1775-1945 |
|
Nápověda | Nápověda k přepisu OCR a segmentaci |
---|
Uživatelská editace - Přepis OCR a Segmentace
Systém RETROBI nabízí uživatelům možnost upravovat podoby textového přepisu lístku, čímž umožňuje průběžně zpřesňovat vyhledávání a okamžité získání validních a formátovaných dat pro export. Uživatelská editace je přístupná registrovaným uživatelům a je koncipována jako dvoustupňová: lze volit mezi přepisem OCR a segmentací lístku.
Výchozí textová data v systému tvoří automaticky získané OCR přepisy jednotlivých lístků, které samozřejmě vzhledem k jejich různorodosti mohou mít velmi rozdílnou kvalitu, což se pak zpětně odráží v možnostech vyhledávání v textových datech. Údaje z ručně psaných lístků či lístků se špatnou obrazovou kvalitou (průklepový papír, vpisky atp.) tak nemusí být pro vyhledávání vůbec dostupné. Ambicí systému RETROBI je nabídnout uživatelům možnost korigovat prezentovaná data a korigovaná data nabízet k okamžitému využití. Přepisy OCR či segmentace lístků tak mohou výrazně napomoci jak lepším možnostem vyhledávání, tak lze jejich pomocí získat přehlednější a kvalitnější podobu exportovaných dat.
Přepis OCR
Základní úrovní je editace OCR přepisu lístku. Editační okno má registrovaný uživatel k dispozici u každého jednotlivého lístku i s předvyplněnou stávající podobou OCR přepisu lístku. V editačním okně může uživatel text OCR přepisu korigovat a následně uložit do systému.
Momentem uložení do systému získá lístek status "Přepsaný". V nově vytvořeném přepisu je možno vyhledávat a je možno jej přes funkci schránka exportovat v libovolné rešerši. Zároveň je o tomto automaticky informován administrátor systému, který v případě správného přepisu může lístek uzamknout a pro další přepis uzavřít. Do této doby je u lístku připojena informace, že byl editován uživatelem, a je možno jej do definitivního uzamčení nadále editovat.
Přehled základních pravidel pro přepis
- Lístky, prosím, přepisujte kompletní a v diplomatické podobě, tj. znak za znak, včetně případných ručních vsuvek a sigly excerptora. Opravujte jen zcela evidentní chyby a překlepy.
- Zvláštní pozornost, prosím, věnujte přepisu znaků, na nichž je založena segmentace, tj. rozmístění a podobě závorek, a znaku "=" (musí být vždy na druhé pozici v bibliografické citaci bez mezer).
- Psaní závorek sjednocujte na hranaté, pakliže se jedná o evidentní doplněk excerptora, tj. zejména u doplnění jazyka překladu, jména osoby kryté šifrou či pseudonymem či jednoslovné charakteristiky článku na konci názvového údaje.
- Pro vydělení segmentů "Bibliografický údaj" a "Anotační část" není typ použité závorky rozhodující.
Segmentace
Vyšší stupeň uživatelské editace tvoří tzv. segmentace. Ta vychází ze základního členění popisného bibliografického údaje na lístku do základních částí: názvových a autorských údajů, bibliografické citace a anotace/věcného popisu (srov. Struktura dat na lístku a Typy lístků.
Segmentace se provádí ve stejném okně jako editace. Vložením znaku | (pravý Alt+W
nebo Alt+124
, popř. je k dispozici na panelu pod editačním oknem) do textu přepisu může uživatel na lístku vydělit jednotlivé segmenty: záhlaví, názvovou část, bibliografický údaj, anotační část a siglu excerptora (viz Struktura dat na lístku). Po odeslání segmentace systém automaticky vyhodnotí její správnost a případně rozčlení textová data na lístku do příslušných polí.
Je-li segmentace úspěšná, lístek je okamžitě k dispozici pro detailnější vyhledávání v příslušných polích a při exportu nabízí přehlednější textovou podobu přepisu (segmenty následují v pevném pořadí a každý začíná na samostatném řádku). Administrátoři systému jsou o proběhlé segmentaci informováni automaticky, a pokud ji schválí, je lístek pro další uživatelské úpravy uzamčen a je vygenerován syntetický/krycí lístek.
Typy segmentů a jejich vymezení
Do editačního okna je možno dle typu lístku vložit 3 až 4 segmentační znaky (na začátek a na konec textu OCR přepisu se segmentační znak nevkládá)
1) Záhlaví
- nachází se v levém horním rohu lístku, obvykle osobní jméno
- segmentační algoritmus jej identifikuje jako segment tvaru "TEXT|"
2) Autorské/názvové údaje
- obvykle druhý segment v pořadí, začíná jménem autora článku, obsahuje název článku, případně incipit a údaje o dalších autorských odpovědnostech (překladatele atp.), končí pravidelně jednoslovnou charakteristikou textu v hranatých závorkách
- segmentační algoritmus jej identifikuje jako segment tvaru "|TEXT|"
3) Bibliografický údaj
- pravidelně v závorkách, přičemž prvním znakem po závorce bez mezery je "=", obsahuje název periodika a další údaje o lokaci článku (rok vydání, ročník, číslo, datum, strana)
- segmentační algoritmus jej identifikuje jako segment tvaru "|+závorka+=+TEXT|"
4) Anotace/věcný popis
- obvykle čtvrtý v pořadí a v závorkách, obsahuje stručnou anotaci článku
- segmentační algoritmus jej identifikuje jako segment tvaru "|+závorka+TEXT|"
U anotace se vyskytují dvě výjimky:
a) "Prázdná anotace"
- v některých případech anotace chybí, tehdy píšeme dva segmentační znaky za sebou
- segmentační algoritmus tento případ identifikuje jako segment tvaru "||"
b) Referáty
- u referátů může být anotace druhým segmentem na lístku v pořadí a anotace (tj. bibliografický údaj o popisované knize) není vydělena závorkami; názvové údaje pravidelně začínají kombinací "Rf";
- segmentační algoritmus u daného lístku identifikuje segment tvaru "|Rf+TEXT|" jako názvové údaje a segment tvaru "|TEXT|" jako anotaci
5) Excerptor
- sigla excerptora se nepovinně nachází v pravém dolním rohu
- segmentační algoritmus ji identifikuje jako segment tvaru "|TEXT", tj. segment bez segmentačního znaku na konci
Rozcestník
- Nápověda k průchodu katalogem
- Nápověda k lístku
- Nápověda ke komentářům
- Nápověda k registraci
- Nápověda k uživatelským hlášením
- Nápověda k přepisu OCR a segmentaci
- Nápověda ke schránce
- Nápověda k vyhledávání
- Nápověda k aplikaci