Uso do Aprendizado de Máquina para a Classificação Automática de Documentos de Arquivo
experimento inicial em uma organização pública
Palavras-chave:
Aprendizado de Máquina, Processamento de Linguagem Natural, Classificação automática de documentos, Gestão de documentosResumo
A evolução recente das tecnologias leva à seguinte pergunta de pesquisa: o aprendizado de máquina pode contribuir com a classificação automática de documentos de arquivo de uma organização pública? Os procedimentos metodológicos consistem na revisão de literatura e nas tarefas propostas pelo modelo CRISP-DM em um experimento com 4.800 documentos, divididos em 24 classes. Foram desenvolvidos 20 (vinte) modelos de aprendizagem supervisionada aplicados a três vocabulários criados (nomes de pessoas, lugares e tempo). O melhor resultado foi o F1 score de 0,870. É proposto um subprocesso específico para trabalhar o espaço de aperfeiçoamento do modelo de classificação com base na Ciência da Informação e Arquivologia.
Downloads
Publicado
Edição
Seção
Licença
Copyright (c) 2023 Tendências da Pesquisa Brasileira em Ciência da Informação
Este trabalho está licenciado sob uma licença Creative Commons Attribution-NonCommercial 4.0 International License.
DIREITOS DE AUTOR: O autor retém, sem retrições, os direitos sobre sua obra.
DIREITOS DE REUTILIZAÇÃO: A TPBCI adota a Licença Creative Commons, CC BY-NC atribuição não comercial conforme a Política de Acesso Aberto ao conhecimento adotado pela ANCIB. Com essa licença é permitido acessar, baixar (download), copiar, imprimir, compartilhar, reutilizar e distribuir os artigos, desde que para uso não comercial e com a citação da fonte, conferindo os devidos créditos de autoria e menção à TPBCI. Nesses casos, nenhuma permissão é necessária por parte dos autores ou dos editores.
DIREITOS DE DEPÓSITO DOS AUTORES/AUTOARQUIVAMENTO: Os autores são estimulados a realizarem o depósito em repositórios institucionais da versão publicada com o link do seu artigo na TPBCI.