QANode Logo

Nó Extrair Arquivo

O nó Extrair Arquivo lê um arquivo recebido como fileRef e devolve texto ou dados estruturados conforme o tipo escolhido.


Visão Geral

PropriedadeValor
Tipofile-extract
CategoriaArquivos
Cor🟤 Dourado (#C89F65)
Entradain
Saídaout

Quando Usar

Use este nó quando o fluxo precisa:

  • ler TXT ou Markdown como texto;
  • validar ou reaproveitar conteúdo JSON;
  • transformar CSV em linhas estruturadas;
  • ler planilhas Excel;
  • extrair texto de PDF;
  • usar OCR como fallback quando o PDF é imagem.

Configuração

CampoTipoDescrição
ArquivofileRefArquivo de entrada
Tipo de extraçãoseleçãoTXT, JSON, CSV, Excel ou PDF

Os campos seguintes mudam conforme o tipo de extração.

TXT

CampoDescrição
CodificaçãoCodificação usada para ler o texto, como utf8

JSON

CampoDescrição
CodificaçãoCodificação usada para ler o arquivo

O conteúdo precisa ser JSON válido.

CSV

CampoDescrição
DelimitadorSeparador das colunas, como , ou ;
Tem cabeçalhoUsa a primeira linha como nomes de colunas
CodificaçãoCodificação do arquivo

Excel

CampoDescrição
Nome da abaAba a ler. Se vazio, usa a primeira aba
Linha do cabeçalhoLinha usada como cabeçalho

PDF

CampoDescrição
Intervalo de páginasPáginas a extrair, como 1-3,5
OCRAtiva OCR como fallback para PDFs em imagem
Idiomas OCRIdiomas do OCR, como por+eng+spa
Escala OCREscala usada na renderização antes do OCR

OCR em PDF

Quando o PDF possui texto real, o QANode tenta extrair diretamente. Se o PDF parece ser imagem, o OCR pode ser usado automaticamente como fallback.

Use OCR para:

  • PDFs digitalizados;
  • demonstrativos e comprovantes em imagem;
  • documentos escaneados;
  • arquivos sem camada de texto.

Idiomas comuns:

ValorIdiomas
porPortuguês
engInglês
spaEspanhol
por+eng+spaPortuguês, inglês e espanhol

Outputs

Os outputs dependem do tipo escolhido.

TXT

OutputTipoDescrição
textstringTexto extraído

JSON

OutputTipoDescrição
jsonanyJSON parseado
textstringTexto original

CSV e Excel

OutputTipoDescrição
rowsarrayLinhas extraídas
columnsarrayColunas detectadas
rowCountnumberQuantidade de linhas
sheetsarrayAbas encontradas, no caso de Excel

PDF

OutputTipoDescrição
textstringTexto extraído
pagesarrayTexto por página
pageCountnumberQuantidade de páginas processadas

Exemplos

Extrair CSV

Arquivo: {{ steps["file-generate"].outputs.fileRef }}
Tipo de extração: CSV
Delimitador: ,
Tem cabeçalho: true

Uso posterior:

{{ steps["file-extract"].outputs.rows[0].email }}
{{ steps["file-extract"].outputs.rowCount }}

Extrair texto de PDF

Arquivo: {{ steps["http-request"].outputs.fileRef }}
Tipo de extração: PDF
Intervalo de páginas: 1-2
OCR: true
Idiomas OCR: por+eng+spa

Validação de Tipo

O nó valida se o arquivo é compatível com o tipo de extração. Se o arquivo não for suportado, o campo fica em vermelho no painel e a execução falha com mensagem clara, por exemplo:

Arquivo não suportado: planilha.xlsx

Dicas

  • Escolha o tipo de extração de acordo com o conteúdo real do arquivo.
  • Para PDF escaneado, habilite OCR; para PDF com texto real, deixe o OCR como fallback.
  • Para CSV com ;, altere o delimitador antes de executar.
  • Use rows para alimentar loops, componentes, geração de arquivos ou validações.