Overview
Zpřístupnění dotazů jazykové poradny v lingvisticky strukturované databázi
Access to a Lingustically Structured Database of Enquiries from the Language Consulting Centre
Identifikátor projektu: DG16P02B009
Trvání: 1.3.2016 - 31.12.2019
Výstupy projektu: 
hlavní - 2xR(SW), vedlejší - 2xJ(článek v odb. časopise), 14xD(článek v časopise, konf. 2017-2019) 
LSSDD  -  lingvisticky strukturovaná  softwarová databáze  pro  zaznamenávání  a zveřejňování  dotazů  jazykové poradny ÚJČ
SADA  -  systém  pro poloautomatickou analýzu dat pro usnadnění  předzpracování  dat  pro LSSDD
Budoucí uživatelé: LSSDD - FF  MUNI, PF  MUNI, PF TUL, JÚLŠ SAV a SADA - MFF UK
Popis
Po  stránce  společenského  přínosu  je  hlavním  cílem  projektu  zpřístupnění  jedinečného 
jazykového materiálu z dotazů položených jazykové poradně Ústavu pro  jazyk český  AV 
ČR,  v.  v.  i.,  nejširší  veřejnosti  ve  zcela  nové,  uživatelsky  přívětivé  softwarové  databázi 
jazykové  problematiky  řešené  v  jazykové  poradně.  Nejrůznější  uživatelské  vrstvy  tím 
získají přístup k jazykovému materiálu, který zpravidla nelze nalézt v žádném jiném zdroji 
poučení  o  jazyce,  a  pokud  ano,  nebývá  o  něm  v  takovém  zdroji  často  pojednáno  z 
perspektiv,  které  tazatel  očekává,  tj.  tazateli  se  může  dostat  obecného  poučení,  avšak 
aplikace  na  jeho  konkrétní  případ  může  být  obtížná,  může  být  vyložen  jen  dílčí  aspekt 
problematiky, tazatel potřebuje ujištění o správném chápání kodifikačního doporučení apod. 
Kromě  tohoto  praktického  cíle –  poučit  o  možnostech  řešení  konkrétního  obtížného 
jazykového  problému – bude  však  mít  vytvoření  databáze  pro  české  národní  jazykové 
společenství i pro zahraniční zájemce o češtinu daleko hlubší smysl. Databáze, jež by měla 
vzejít  z  tohoto  projektu,  není  navrhována  jako  nástroj  ke  zveřejnění  uzavřeného  okruhu 
dotazů  bez  dalších  perspektiv,  nýbrž  hlavně  jako  otevřený  a  flexibilní  nástroj  k  trvalému 
doplňování  a  rozšiřování,  a  proto  bude  sloužit  jako  jakási  kolektivní  historická  paměť 
jednak tvorby české normativní mluvnice a pravopisných pravidel, jednak jako co možná 
nejspolehlivější  vědecky  zpracovaný  záznam  o  vývoji  českého  národního  jazyka – vývoji 
nahlíženém  nikoli  z  perspektivy  tvůrců  jazykových  příruček,  ale  samotných  uživatelů 
jazyka.
Po technické stránce je hlavním cílem projektu tvorba specifického databázového softwaru 
a webového rozhraní pro vytvoření lingvisticky strukturované softwarové databáze dotazů 
(LSSDD) položených jazykové poradně Ústavu pro jazyk český AV ČR; dále zdokonalení 
softwaru pro  převod  mluvené řeči  na  psaný  text  tak,  aby  co  nejlépe  vyhovoval  potřebám 
přepisu telefonických hovorů v jazykové poradně coby podkladů pro databázové záznamy o 
jazykové problematice řešené v konkrétním telefonickém rozhovoru tazatele a pracovníka 
jazykové  poradny.  Tyto  telefonické  hovory  se  předpokládají  jako  primární  zdroj  dat  pro 
LSSDD. 
Vytvoření LSSDD sleduje tyto společenské a lingvistické cíle:
1) Zachytit a zpřístupnit veřejnosti zcela nové jazykové jevy bezprostředně po jejich vzniku 
a umožnit sledování průběhu existence daného jazykového prostředku v češtině. Dotazový 
materiál dobře odráží nástup, průběh existence, aktuálnost, popř. i zánik jazykových jevů. 
Např. první záznam o neživotně pojímaných počítačových červech (počítačoví červi, nebo 
počítačové červy?) se v dotazech poprvé objevuje v roce 1998, od té doby zaznamenáváme 
po určitou dobu relativně stabilní množství dotazů na týž typ a následný pokles; dotazy na 
pravopis  slova  tsunami/cunami  přicházejí  zprudka  a  ve  velkém  množství  v  závěru  roku 
2004 jako důsledek událostí ve světě a ustávají v průběhu roku následujícího. Strukturovaná 
55
archivace dotazů má tedy zásadní význam v dlouhodobé perspektivě. Kromě korpusů, jež 
však nejsou ze své podstaty zaměřeny na klasifikaci a popis jednotlivých jazykových jevů, 
česká  lingvistika  nemá  k  dispozici  jiný  nástroj,  který  by  umožňoval  s  obdobnou  (tedy 
alespoň  přibližnou)  spolehlivostí  určit  nástup  a  průběh  existence  některých  jazykových 
jevů;  přitom  právě  nové,  inovační  a  (dosud)  nepopsané  jevy  bývají  častým  předmětem 
dotazů,  protože  se  ještě  nedostaly  do  jazykových  příruček,  které  veřejnost  běžně užívá 
(slovníky,  Pravidla  českého  pravopisu). Tyto  životní  cykly  jazykových  jevů  bude  pomocí 
LSSDD  možné  snadno  sledovat,  protože  se  počítá  s  opatřováním  databázových  záznamů 
přesnými  daty  zachycení.  Sledování  nástupu  a  průběhu  existence  jazykových  jevů  je
cenným záznamem dokumentujícím vývojové tendence současné i budoucí češtiny.
2)  Umožnit  uživatelům  češtiny  praktickou  orientaci  v  tom,  které  jazykové  jevy  jsou 
kodifikované a které nikoli, jak aktuální a vyčerpávající je kodifikační popis a v čem jsou 
případné nedostatky kodifikačního popisu vyváženy doporučeními jazykové poradny. Tyto 
informace  jsou  velmi  žádané  nejen  žáky,  učiteli,  jazykovými  redaktory  a  korektory,  ale 
často také samotnými lingvisty. Kromě toho, že jde o žádaný typ služby veřejnosti, bude mít 
LSSDD  v  tomto  ohledu  zásadní  význam  jako  systematická  a  systematizovaná  tvorba 
podkladů  pro  kodifikační  činnost  či  obecněji  pro  jazykovou  deskripci.  Záznamy  o  stavu 
kodifikace  je  z  výše  uvedených  důvodů  třeba  (vůbec  poprvé  v  historii  české  kodifikace) 
důsledně formalizovat, systematizovat a strukturovat. LSSDD bude pro tento konkrétní účel 
navržena tak, aby umožňovala zachytit následující okruh základních údajů.
U kodifikovaných, resp. popsaných jevů:
a)  ve  které  kodifikační  příručce  je  jev  zachycen,  tzn.  jakou  kodifikační  váhu  má 
doporučované řešení (jinak posuzujeme řešení zachycené v Pravidlech českého pravopisu, 
jinak řešení v popularizačních pracích); 
b)  rozpory  v  kodifikaci,  tj.  rozdílná  řešení  v  různých  příručkách,  např.  Indián/indián –
rozdílně řešeno v Pravidlech českého pravopisu a v některých vydáních Slovníku spisovné 
češtiny pro školu a veřejnost;
c) řešení  či doporučení,  která se v praxi přežila  či se zhusta  nedodržují, např. skloňování 
(ten) datum – datumu atd. užívané v běžné praxi a odporující kodifikovanému (to) datum –
data atd.;
d) nedostatečný popis jevu v příručkách, např. skloňování složených číslovkových výrazů.
U jevů nekodifikovaných, resp. nepopsaných: 
Poradenská  činnost  vytváří  soubor  doporučení,  která  respektují  jazykové  zákonitosti  i 
potřeby uživatelů, a proto mají potenciál stát se racionální a přijímanou součástí budoucích 
kodifikačních příruček.
3)  Zpřístupnit  veřejnosti  co  nejširší  okruh  problematických  jevů  příslušných  typů 
(„zexplicitnit  kodifikaci“).  Mezi  časté  dotazy  patří  např.  psaní  velkých  písmen  v 
nejrůznějších  typech  názvů.  Obecná  pravidla  pro  řešení  lze  vyhledat  v  základních 
příručkách, chybí  však  pokud  možno  úplné  výčty,  často  žádané:  „Nemáte  nějaký  seznam 
56
(problematických)  názvů  ulic/hradů  a  zámků/institucí/dokumentů  apod.? A  není  někde na 
webu?“ LSSDD by tento problém v relativně krátké době pomohla účinně řešit, protože se 
bude  postupně  plnit  příslušnými  konkrétními  výrazy  i  s  potřebnými  výklady  u  každého  z 
nich.
4)  Zajištění  jednotnosti  v  poradenské  činnosti  jakožto  službě  veřejnosti.  Jednotnost  v 
odpovědích  se  při  současném  vytížení  poradny  sice  daří  udržovat,  avšak  jen  se  značným 
úsilím a s rizikem pochybení úměrným objemu zpracovávaného materiálu. Je třeba vytvořit 
nástroj zjednodušující dodržování jednotných postupů v každodenní poradenské činnosti, a 
to zejména u jevů nových, dosud nezachycených, a u jevů nekodifikovaných (jednoznačně). 
Jednotnost je v poradenské praxi nezbytná, tazateli jazykové poradny bývají instituce, úřady 
a  média,  jejichž  jazykové  chování  je  vysoce  normotvorné – má  celostátní,  veřejnou  a 
oficiální  působnost.  Rozdílná  řešení  určitých  jazykových  problémů  mohou  mít  pro 
jazykovou  praxi  závažné  důsledky.  Zveřejnění  dat  jazykového  poradenství  posílí 
společenskou odpovědnost pracoviště, protože s LSSDD společnost získá přehled o všech 
aspektech jazykověporadenské práce.
5) Využití materiálu z LSSDD pro popularizační činnost, přípravu učebnic, skript i jiných 
učebních textů (poskytnutí konkrétního jazykového materiálu tříděného podle mluvnických 
kategorií) atd., a to jak pracovníky poradny, tak tvůrci učebních materiálů z řad veřejnosti 
(učitelé všech stupňů škol, pracovníci nakladatelství – tvůrci učebnic).
6)  Využití  pro  další  elektronické  zpracování, např.  jako  podklad  pro  tvorbu  počítačových 
aplikací zaměřených na automatické odpovídání.
7) Informace získané při vyplňování LSSDD v průběhu řešení projektu budou využity jako 
referenční  expertní  znalost  pro  algoritmy  strojového  učení  pro  systém  poloautomatického 
zpracování dat pro vkládání do této databáze. Výsledná LSSDD bude obsahovat jedinečné 
informace o jazyce získané od uživatelů poradny doplněné o odborné znalosti pracovníků 
poradny.  Tyto  informace  bude  možné  použít  jako  zdroj  referenčních  dat  (informací  od 
učitele) pro vývoj algoritmů strojové klasifikace obsahu dotazů a porozumění přirozenému 
jazyku.
Takto koncipovaná softwarová databáze bude potřebnou „kolektivní pamětí“ kodifikace a 
lingvistiky vůbec a nástrojem, který umožní jednak překlenovat mezidobí do vydání nové 
kodifikace,  jednak  zaplnit  mezery  v  existující  kodifikaci,  protože  dokáže  zprostředkovat 
odborné  poučení  o  jevech  (dosud)  nezachycených  v  kodifikaci,  popř.  jevech,  které  v 
kodifikaci nejsou popsané dostatečně.
Members
Member: Albrechtová Barbora, Beneš UJC Martin, Dostal Martin, Dufek Ondřej, Dvořáková Hana, Dvořáková Klára, Kopecký Jakub, Kunešová Marie, Kříž Adam, Müller Luděk, Novotný Jaromír, Nykl Michal, Pravdová Markéta, Pražák Aleš, Prokšová Hana, Prošek Martin, Psutka Josef V., Salajka Petr, Skorkovská Lucie, Smejkalová Kamila, Svobodová Ivana, Zajíc Zbyněk, Zima Martin, Černá Anna, Štěpánová Veronika
Manager: Müller Luděk, Zajíc Zbyněk