Pogosto zastavljena vprašanja za OdprtiTezaver

Vsebina

Uvod

OdprtiTezaver je interaktivna spletna stran, ki skrbi za slovenski tezaver. Tezaver je slovarek sopomenk, kjer lahko najdemo tudi besede s podobnim ali istim pomenom. Tako iskanje z besedo nepravilen med drugim vrne sopomenke napačen, naroben.

Pri OdprtemTezavru lahko sodeluje vsak, tako da popravlja vnose ali vnaša nove sopomenke. Funkcija iskanja pokaže vse pomene, v katerih se pojavlja beseda (npr. surov -> surov, nekuhan in v drugem vnosu surov, grob). Pri posameznih pomeni lahko določene besede izbrišemo in vnesemo nove. Če iskanje ne vrne zadetkov, se ponudi povezava, s katero lahko besedo dodamo tezavru (če poznamo sopomenke zanjo).

Za sodelovanje je potrebna registracija. Še prej pa morate do konca prebrati ta pogosto zastavljena vprašanja, da boste spoznali najpomembnejša pravila za spreminjanje in vnašanje besed. S povezavo "Preverjanje vnosov" na domači strani si lahko ogledate naključno izbrane primere, tako da vam bo hitro jasno, kako se tukaj zbirajo sopomenke. Tezaver je izdan pod licenco LGPL.

Preden zanete vnašati in popravljati vnose, morate razumeti, kako so strukturirani podatki v tezavru -- in sicer po pomenu. Če se pri neki besedi, kot je banka, ponuja več pomenov, potem mora obstajati za vsak pomen en vnos. Za vnosom banka, posojilnica torej ne smemo vnesti semenska banka, saj gre za drugačen pomen. Namesto tega vnesemo nov vnos banka, semenska banka.

Če ne veste, kje bi začeli, sledite povezavi "Preveri vnose" na prvi strani. Prikazane bodo naključno izbrane množice sopomenk, katerim morda sodi še kakšna dodatna sopomenka ali pa lahko pri njih izbrišete neprimerno besedo. Besede so tudi med seboj povezane: če se za besedo pojavi številka, potem je to števec množic sopomenk, v katerih nastopa beseda. S klikom na številko se izpišejo vse te množice.

Kaj je sopomenka ali sinonim?

Ko imata dve ali več besed v danem kontekstu enak pomen, sta soopomenki (sinonima). Primeri:

adresa, naslov
vesel, razposajen
pogosto, dostikrat

Če sta besedi sopomenki, lahko enostavno preverimo z izmišljenim stavkom Pogosto grem v kino.. Tukaj lahko pogosto zamenjamo z dostikrat, ne da bi s tem stavek dobil drugačen pomen. Torej sta pogosto in dostikrat sopomenki.

Naslednji pari besed pa ne predstavljajo sopomenk:

toplo -- vroče (pomen se preveč razlikuje)
hiša -- zgradba (hiša je podpomenka (hiponim) zgradbe)

Sopomenke enega pomena tvorijo množico sopomenk. Beseda z različnimi pomeni -- kot n.pr. banka -- se pojavi v več množicah sopomenk, ker ime tudi več različnih pomenov, n.pr.:

Množica sopomenk 1: banka, posojilnica
Množica sopomenk 2: banka, banka za spermo

Nasvet za strokovnjake: množice sopomenk naj ustrezajo množicam sopomenk (synsets) v sistemu WordNet.

Na kaj moram paziti pri svojih vnosih in popravkih?

Na kratko:

Kaj je mišljeno z osnovno obliko?

V zbirko podatkov sodijo le osnovne, nespremenjene oblike, torej pri glagolih nedoločnik, pri samostalnikih ednina, pri predlogih nestopnjevana oblika. Primeri:

pravilno: teči, nepravilno: tekla, tečeš, ...
pravilno: hiša, nepravilno: hiše
pravilno: dolg, nepravilno: dlje

Kako delujejo te nadpomenke in podpomenke?

Cilj je, da dolgoročno v hierarhijo razvrstimo vse množice sopomenk, razen tistih s pridevniki. Zgornji del imenske hierarhije je zgrajen tako:

	-krneki
		-entiteta (vse, kar lahko fizično obstaja)
			-kraj, območje, mesto, ... (n.pr. "mesto")
			-živa bitja, stvori, ... (n.pr. "žival")
			-neživi predmet (n.pr. "stavba")
		-abstrakcija (n.pr. "koncept")
		-stanje, status, ... (n.pr. "svoboda")
		-dogodek, pojav, ... (n.pr. "čudež")
		-aktivnost, delovanje (n.pr. "komunikacija")
		-skupina, spajanje (n.pr. "oblačnost")
		-psihološka lastnost (n.pr. "čustvo")
	

To beremo na naslednji način: mesto je kraj je entiteta je krneki. Krneki je umetna vrhnja kategorija, pod katero sodijo vsa imena, pri glagolih pa je to delati, početi. Zgoraj navedeni del hierarhije je nespremenljiv in ga ne kaže spreminjati (niti razširjati). Vse obstoječe ali nove množice sopomenk naj bi se podrejale tej hierarhiji. Pri glagolih velja naslednje. Celotna hierarhija za samostalnike in glagole si lahko ogledate v drevesnem pogledu.

Primer: množica sinonimov avtomobil je bila v dano hierarhijo vgrajena na naslednji način:
avtomobil je vozilo je neživi predmet je entiteta jen karkoli.

Pojem A je podpomenka B, če lahko rečemo "A je B". Ne moremo n.pr. reči "Nož je pribor" (nož je del pribora, vendar ta povezava tukaj še ni omogočena).

V hierarhijo pojmov naj bi uvrščali le splošno znane reči, n.pr. da je breza drevo -- pravilna in izčrpna taksonomija botanike tukaj ni namen. Poleg tega naj ne bi hranili lastnih imen, torej ni pravilno: BMW je avto.

Pri množici sopomenk lahko navedete le nadpomenko. Za vnos podpomenk morate le-ta pojem poiskati in tam vnesti ustrezno nadpomenko. Iskane množice sopomenk se potem pojavijo pri nadpomenki kot dodatne podpomenke. Vsaka množica sopomenk ima lahko samo eno nadpomenko.

Zakaj se je potrebno registrirati?

Preprečiti želimo, da bi v zbirko vnašali neumnosti. Bralni dostop imate tudi brez registracije. Prav tako lahko prenesete vse datoteke ali predlagate besede, ne da bi bili registrirani.

Kaj so "Wikipovezave"?

V Wikipediji so članki med seboj povezani s povezavami v besedilu. Prve izmed teh povezav v članku so prikazane v področju "Wikipovezave". Ker je Wikipedija leksikon in ne slovar, je tukaj za pričakovati zadetke predvsem za samostalnike, ne pa za glagole in pridevnike.

Predlogi preverjanja črkovanja niso pravilni!

Možno je, da črkovanje ne prepozna vseh besed (vendar skoraj vse), ki se nahajajo v OdprtemTezavru. Sicer pozna veliko besed, ki jih OdprtiTezaver ne pozna, in jih tudi predlaga. Deloma bodo predložene besede nesmiselne (npr. Flutwurst). Sicer predlaga tudi "popravke", če je bil iskalni pojem pravilno zapisan (velike/male črke).

Za seznam besed uporabljamo slovenski seznam za črkovanje, kot program za preverjanje črkovanja pa Hunspell.

Odkod lahko prenesem datoteke tezavra?

Slovenski podatki OdprtegaTezavra so na voljo pod licenco LGPL na naslednjih naslovih:

Po ročni namestitvi v OpenOffice.org mi slovarja sopomenk ne uspe aktivirati.

Lahko OdprtiTezaver uporabim tudi z drugimi urejevalniki besedil?

Ne, OdprtiTezaver deluje po izkušnjah le z OpenOffice.org in KWord. Še posebej trenutno OdprtegaTezavra ni mogoče vključiti v StarOffice ali Microsoft Word.

Lahko OdprtiTezaver vključim v svojo domačo stran?

S sledečo kodo HTML lahko iskalnik OdprtegaTezavra uporabite tudi na lastni domači strani:

	<form action="http://88.200.20.8:85/overview.php" method="get">
		<input type="hidden" name="search" value="1" />
		<input type="text" size="18" name="word" />
		<input type="submit" value="Sopomenke ..." />
	</form>
	

Sodelavci in pomočniki

Največja zahvala gre Danielu Nabru iz Nemčije, ki je pripravil nemški OpenThesaurus in ga izdal pod licenco GNU/LGPL. Sicer pa zahvala velja vsem uporabnikom za njihove prispevke. Podatki za normalizacijo besed (najdete n.pr. avto, tudi če iščete avti) izvirajo iz Morphy-ja.

Kako zares deluje OdprtiTezaver oz. OpenThesaurus, na katerem temelji?

Preberite si ta članek (PDF, 266 KB, v angleščini).


Stran posodobljena: 2014-11-15