sibe/examples/naivebayes-doc-classifier.hs

module Main
  where
    -- import Sibe
    import Sibe.NaiveBayes
    import Text.Printf
    import Data.List
    import Data.Maybe
    import Debug.Trace
    import Data.List.Split
    import Control.Arrow ((&&&))

    main = do
      dataset <- readFile "examples/doc-classifier-data/data-reuters"
      test <- readFile "examples/doc-classifier-data/data-reuters-test"

      classes <- map (filter (/= ' ')) . lines <$> readFile "examples/doc-classifier-data/data-classes"

      let intClasses = [0..length classes - 1]
      -- let intClasses = [0, 1]
          documents = cleanDocuments $ createDocuments classes dataset
          -- documents = [Document "Chinese Beijing Chinese" 0,
          --              Document "Chinese Chinese Shanghai" 0,
          --              Document "Chinese Macao" 0,
          --              Document "Japan Tokyo Chinese" 1]
          -- testDocuments = [Document "Chinese Chinese Chinese Japan Tokyo" 0]
          testDocuments = cleanDocuments $ createDocuments classes test
          devTestDocuments = take 30 testDocuments
          -- devTestDocuments = [Document "Chinese Chinese Chinese Tokyo Japan" 0]
          nb = train documents intClasses

          results = map (\(Document text c) -> (c, run text nb)) testDocuments
          -- results = map (\(Document text c) -> (c, run text nb)) devTestDocuments

      -- print (text $ head documents)

      let showResults (c, r) = putStrLn (classes !! c ++ " ~ " ++ classes !! r)
      mapM_ showResults results

      putStrLn $ "Recall: " ++ show (recall results)
      putStrLn $ "Precision: " ++ show (precision results)
      putStrLn $ "F Measure: " ++ show (fmeasure results)
      putStrLn $ "Accuracy: " ++ show (accuracy results)

    createDocuments classes content =
      let splitted = splitOn (replicate 10 '-' ++ "\n") content
          pairs = map ((head . lines) &&& (unwords . tail . lines)) splitted
          documents = map (\(topic, text) -> Document text (fromJust $ elemIndex topic classes)) pairs
      in documents
feat(naivebayes): implement NaiveBayes algorithm feat(example): a document classifier using NaiveBayes over reuters data 2016-07-29 11:46:44 +00:00			`module Main`
			`where`
fix(naivebayes): fix the algorithm to make it actually work feat(cleanDocuments): preprocess documents, use stemming and stopword elimination for better accuracy 2016-08-05 19:24:36 +00:00			`-- import Sibe`
feat(naivebayes): implement NaiveBayes algorithm feat(example): a document classifier using NaiveBayes over reuters data 2016-07-29 11:46:44 +00:00			`import Sibe.NaiveBayes`
			`import Text.Printf`
			`import Data.List`
			`import Data.Maybe`
			`import Debug.Trace`
feat(results): accuracy, recall and precision functions used to calculate measures fix: read data from another repository 2016-07-29 13:25:59 +00:00			`import Data.List.Split`
fix(naivebayes): fix the algorithm to make it actually work feat(cleanDocuments): preprocess documents, use stemming and stopword elimination for better accuracy 2016-08-05 19:24:36 +00:00			`import Control.Arrow ((&&&))`
feat(naivebayes): implement NaiveBayes algorithm feat(example): a document classifier using NaiveBayes over reuters data 2016-07-29 11:46:44 +00:00
			`main = do`
feat(results): accuracy, recall and precision functions used to calculate measures fix: read data from another repository 2016-07-29 13:25:59 +00:00			`dataset <- readFile "examples/doc-classifier-data/data-reuters"`
			`test <- readFile "examples/doc-classifier-data/data-reuters-test"`
feat(naivebayes): implement NaiveBayes algorithm feat(example): a document classifier using NaiveBayes over reuters data 2016-07-29 11:46:44 +00:00
feat(results): accuracy, recall and precision functions used to calculate measures fix: read data from another repository 2016-07-29 13:25:59 +00:00			`classes <- map (filter (/= ' ')) . lines <$> readFile "examples/doc-classifier-data/data-classes"`
feat(naivebayes): implement NaiveBayes algorithm feat(example): a document classifier using NaiveBayes over reuters data 2016-07-29 11:46:44 +00:00
			`let intClasses = [0..length classes - 1]`
fix(naivebayes): fix the algorithm to make it actually work feat(cleanDocuments): preprocess documents, use stemming and stopword elimination for better accuracy 2016-08-05 19:24:36 +00:00			`-- let intClasses = [0, 1]`
			`documents = cleanDocuments $ createDocuments classes dataset`
			`-- documents = [Document "Chinese Beijing Chinese" 0,`
			`-- Document "Chinese Chinese Shanghai" 0,`
			`-- Document "Chinese Macao" 0,`
			`-- Document "Japan Tokyo Chinese" 1]`
			`-- testDocuments = [Document "Chinese Chinese Chinese Japan Tokyo" 0]`
			`testDocuments = cleanDocuments $ createDocuments classes test`
			`devTestDocuments = take 30 testDocuments`
			`-- devTestDocuments = [Document "Chinese Chinese Chinese Tokyo Japan" 0]`
			`nb = train documents intClasses`
feat(naivebayes): implement NaiveBayes algorithm feat(example): a document classifier using NaiveBayes over reuters data 2016-07-29 11:46:44 +00:00
fix(naivebayes): fix the algorithm to make it actually work feat(cleanDocuments): preprocess documents, use stemming and stopword elimination for better accuracy 2016-08-05 19:24:36 +00:00			`results = map (\(Document text c) -> (c, run text nb)) testDocuments`
			`-- results = map (\(Document text c) -> (c, run text nb)) devTestDocuments`

			`-- print (text $ head documents)`
feat(naivebayes): implement NaiveBayes algorithm feat(example): a document classifier using NaiveBayes over reuters data 2016-07-29 11:46:44 +00:00
feat(results): accuracy, recall and precision functions used to calculate measures fix: read data from another repository 2016-07-29 13:25:59 +00:00			`let showResults (c, r) = putStrLn (classes !! c ++ " ~ " ++ classes !! r)`
			`mapM_ showResults results`
feat(naivebayes): implement NaiveBayes algorithm feat(example): a document classifier using NaiveBayes over reuters data 2016-07-29 11:46:44 +00:00
fix(precision): little bug in implementation 2016-07-30 12:22:34 +00:00			`putStrLn $ "Recall: " ++ show (recall results)`
			`putStrLn $ "Precision: " ++ show (precision results)`
fix(naivebayes): fix the algorithm to make it actually work feat(cleanDocuments): preprocess documents, use stemming and stopword elimination for better accuracy 2016-08-05 19:24:36 +00:00			`putStrLn $ "F Measure: " ++ show (fmeasure results)`
fix(precision): little bug in implementation 2016-07-30 12:22:34 +00:00			`putStrLn $ "Accuracy: " ++ show (accuracy results)`
fix(naivebayes): fix the algorithm to make it actually work feat(cleanDocuments): preprocess documents, use stemming and stopword elimination for better accuracy 2016-08-05 19:24:36 +00:00
			`createDocuments classes content =`
			`let splitted = splitOn (replicate 10 '-' ++ "\n") content`
			`pairs = map ((head . lines) &&& (unwords . tail . lines)) splitted`
			`documents = map (\(topic, text) -> Document text (fromJust $ elemIndex topic classes)) pairs`
			`in documents`