Item request has been placed! ×
Item request cannot be made. ×
loading  Processing Request

Usporedba metoda za klasifikaciju tekstualnih dokumenata

Item request has been placed! ×
Item request cannot be made. ×
loading   Processing Request
  • معلومة اضافية
    • Contributors:
      Pripužić, Krešimir
    • الموضوع:
      2017
    • نبذة مختصرة :
      Zbog postojanja vrlo velike količine tekstualnih dokumenata potrebno ih je, radi brže, jeftinije i lakše obrade, organizirati, odnosno podijeliti prema zajedničkim svojstvima na zadane klase. Takav postupak nazivamo klasifikacija koja je, osim na tekstualne dokumente, primjenjiva i na druge vrste podataka. S obzirom na svojstva podataka koje organiziramo, potrebno je odabrati onu metodu klasifikacije koja će najbolje odrediti pripadnost klasi. Odluka se temelji na teorijskim saznanjima o pojedinim metodama i usporedbi dobivenih rezultata. Moguće je da iste metode, primijenjene na različite skupove podataka, rezultiraju vrlo različitom točnosti određivanja klasa. U radu su opisana dva klasifikatora koji pripadaju različitim vrstama strojnog učenja. To su klasifikator najbližih susjeda i naivni Bayesov klasifikator. Za primjenu klasifikacije moguće je koristiti Apache Lucene, programsku knjižnicu otvorenog koda. In order to efficiently process large number of textual documents it is necessary to organize them by assigning a class for each document. Because of that we use classification methods which can be applied to other types of data as well. Considering the properties of documents set, it is necessary to use a classification method which will result with the best classification result. The decision has to be made based on theoretical knowledge and regarding the given set of documents because the quality of the same method can vary regarding the properties of given set of documents. Two classification methods with different properties are described in this thesis. These are \textit{k}-Nearest Neighbor classification and Naive Bayes classifier. Apache Lucene, an open source information retrieval library, can be used for implementing text classification.
    • File Description:
      application/pdf
    • Rights:
      OPEN
    • الرقم المعرف:
      edsair.dedup.wf.001..4e559e671ef95424c8b972a57e21fdf6