Uso do Aprendizado de Máquina para a Classificação Automática de Documentos de Arquivo: experimento inicial em uma organização pública

Eduardo Watanabe; Renato Tarciso Barbosa de Sousa

Uso do Aprendizado de Máquina para a Classificação Automática de Documentos de Arquivo

experimento inicial em uma organização pública

Autores

Eduardo Watanabe Universidade de Brasília https://orcid.org/0000-0002-7576-2793
Renato Tarciso Barbosa de Sousa Universidade de Brasília https://orcid.org/0000-0002-5647-7903

Palavras-chave:

Aprendizado de Máquina, Processamento de Linguagem Natural, Classificação automática de documentos, Gestão de documentos

Resumo

A evolução recente das tecnologias leva à seguinte pergunta de pesquisa: o aprendizado de máquina pode contribuir com a classificação automática de documentos de arquivo de uma organização pública? Os procedimentos metodológicos consistem na revisão de literatura e nas tarefas propostas pelo modelo CRISP-DM em um experimento com 4.800 documentos, divididos em 24 classes. Foram desenvolvidos 20 (vinte) modelos de aprendizagem supervisionada aplicados a três vocabulários criados (nomes de pessoas, lugares e tempo). O melhor resultado foi o F1 score de 0,870. É proposto um subprocesso específico para trabalhar o espaço de aperfeiçoamento do modelo de classificação com base na Ciência da Informação e Arquivologia.

Downloads

Não há dados estatísticos.

Downloads

Publicado

2023-12-30

Como Citar

Watanabe, E., & Sousa, R. T. B. de. (2023). Uso do Aprendizado de Máquina para a Classificação Automática de Documentos de Arquivo: experimento inicial em uma organização pública. Tendências Da Pesquisa Brasileira Em Ciência Da Informação, 16. Recuperado de https://revistas.ancib.org/tpbci/article/view/617

Baixar Citação

Edição

v. 16 (2023): Premiados Enancib - 2022

Seção

Premiados do ENANCIB

Licença

Este trabalho está licenciado sob uma licença Creative Commons Attribution-NonCommercial 4.0 International License.

DIREITOS DE AUTOR: O autor retém, sem retrições, os direitos sobre sua obra.

DIREITOS DE REUTILIZAÇÃO: A TPBCI adota a Licença Creative Commons, CC BY-NC atribuição não comercial conforme a Política de Acesso Aberto ao conhecimento adotado pela ANCIB. Com essa licença é permitido acessar, baixar (download), copiar, imprimir, compartilhar, reutilizar e distribuir os artigos, desde que para uso não comercial e com a citação da fonte, conferindo os devidos créditos de autoria e menção à TPBCI. Nesses casos, nenhuma permissão é necessária por parte dos autores ou dos editores.

DIREITOS DE DEPÓSITO DOS AUTORES/AUTOARQUIVAMENTO: Os autores são estimulados a realizarem o depósito em repositórios institucionais da versão publicada com o link do seu artigo na TPBCI.

Uso do Aprendizado de Máquina para a Classificação Automática de Documentos de Arquivo

experimento inicial em uma organização pública

Autores

Palavras-chave:

Resumo

Downloads

Downloads

Publicado

Como Citar

Edição

Seção

Licença

Enviar Submissão

Palavras-chave

Informações

Desenvolvido por