Uso do Aprendizado de Máquina para a Classificação Automática de Documentos de Arquivo

experimento inicial em uma organização pública

Autores

Palavras-chave:

Aprendizado de Máquina, Processamento de Linguagem Natural, Classificação automática de documentos, Gestão de documentos

Resumo

A evolução recente das tecnologias leva à seguinte pergunta de pesquisa: o aprendizado de máquina pode contribuir com a classificação automática de documentos de arquivo de uma organização pública? Os procedimentos metodológicos consistem na revisão de literatura e nas tarefas propostas pelo modelo CRISP-DM em um experimento com 4.800 documentos, divididos em 24 classes. Foram desenvolvidos 20 (vinte) modelos de aprendizagem supervisionada aplicados a três vocabulários criados (nomes de pessoas, lugares e tempo). O melhor resultado foi o F1 score de 0,870. É proposto um subprocesso específico para trabalhar o espaço de aperfeiçoamento do modelo de classificação com base na Ciência da Informação e Arquivologia.

Downloads

Publicado

2023-12-30

Edição

Seção

Premiados do ENANCIB