Pametna pretraga
U današnje vreme su beskonačne pretrage postale svakodnevnica. Nekada su to beleške sa sastanka, stari mejl od kolege, informacije o konkurenciji, aktuelnosti iz struke, presudu sličnog slučaja iz prošlosti, neželjene reakcije na lek ili zanimljivi deo dugog videa ili podkasta. Šta bismo sve mogli da stignemo kada ne bismo stalno nešto pretraživali? Bez obzira da li razvijate aplikacije za širu publiku ili kompleksna interna rešenja u okviru firme, obratite pažnju na ove korisne jezičke module.
Lematizator (stemmer)
Radi se o osnovnoj jezičkoj komponenti većine pretraživača, koja uspešno pronalazi osnovni oblik reči (tzv. lemu, lemma) iz njenih izvedenih oblika, ili obratno – generiše sve izvedene oblike reči iz njenog osnovnog oblika. Zahvaljujući tome je u polje za pretragu dovoljno uneti npr. reč čovek i pretraživač će automatski pronaći i sve tekstove sa rečima čoveku, čovekom ili ljudi. O kompleksnosti lematizacije u različitim jezicima možete pročitati u članku Formalna morfologija.
Lematizator se obično integriše u databaze i opšte fulltext sisteme. Dok ovi sistemi efektivno obezbeđuju indeksaciju i brzo pretraživanje, lematizator je tu da se postara za sve jezičke začkoljice. Više informacija saznajte u članku Integracija.
Tezaurus (sinonimi)
Na svaku pretragu može nepovoljno uticati činjenica da se mnogi pojmovi mogu izraziti različitim terminima. Npr. premijer je isto što i predsednik vlade, umesto reči preduzetnik često čujemo biznismen, a ako je neka priča zanimljiva možemo reći i da je interesantna, dojmljiva, uzbudljiva i sl. Ove razlike ublažava upravo tezaurus, koji se često integriše uz lematizator, čime se otvara mogućnost za širu pretragu i pronalaženje drugih relevantnih dokumenata.
Prepoznavanje jezika
Tokom obrade višejezičnog teksta ili dokumenata u kojima su neki delovi (npr. linkovi ili bibliografski citati) navedeni na drugom jeziku, bitno je prepoznati o kom jeziku se radi i prema tome izabrati odgovarajući lematizator ili tezaurus. Elegantno rešenje za ovaj problem je komponenta koja koristi dostupne lematizatore i kojoj je za tačno određivanje jezika dovoljno samo nekoliko reči.
Prevodilac (translator)
U današnjem globalizovanom svetu često nije dovoljno pretraživati i analizirati dokumente na samo jednom jeziku. Jezičku barijeru možemo lako prevazići korišćenjem alata za mašinski prevod, koji mogu da prevedu izvorni tekst dovoljno kvalitetno za potpuno razumevanje i dalje pretraživanje i obradu relevantnih informacija.