Nó Extrair Arquivo
O nó Extrair Arquivo lê um arquivo recebido como fileRef e devolve texto ou dados estruturados conforme o tipo escolhido.
Visão Geral
| Propriedade | Valor |
|---|
| Tipo | file-extract |
| Categoria | Arquivos |
| Cor | 🟤 Dourado (#C89F65) |
| Entrada | in |
| Saída | out |
Quando Usar
Use este nó quando o fluxo precisa:
- ler TXT ou Markdown como texto;
- validar ou reaproveitar conteúdo JSON;
- transformar CSV em linhas estruturadas;
- ler planilhas Excel;
- extrair texto de PDF;
- usar OCR como fallback quando o PDF é imagem.
Configuração
| Campo | Tipo | Descrição |
|---|
| Arquivo | fileRef | Arquivo de entrada |
| Tipo de extração | seleção | TXT, JSON, CSV, Excel ou PDF |
Os campos seguintes mudam conforme o tipo de extração.
TXT
| Campo | Descrição |
|---|
| Codificação | Codificação usada para ler o texto, como utf8 |
JSON
| Campo | Descrição |
|---|
| Codificação | Codificação usada para ler o arquivo |
O conteúdo precisa ser JSON válido.
CSV
| Campo | Descrição |
|---|
| Delimitador | Separador das colunas, como , ou ; |
| Tem cabeçalho | Usa a primeira linha como nomes de colunas |
| Codificação | Codificação do arquivo |
Excel
| Campo | Descrição |
|---|
| Nome da aba | Aba a ler. Se vazio, usa a primeira aba |
| Linha do cabeçalho | Linha usada como cabeçalho |
PDF
| Campo | Descrição |
|---|
| Intervalo de páginas | Páginas a extrair, como 1-3,5 |
| OCR | Ativa OCR como fallback para PDFs em imagem |
| Idiomas OCR | Idiomas do OCR, como por+eng+spa |
| Escala OCR | Escala usada na renderização antes do OCR |
OCR em PDF
Quando o PDF possui texto real, o QANode tenta extrair diretamente. Se o PDF parece ser imagem, o OCR pode ser usado automaticamente como fallback.
Use OCR para:
- PDFs digitalizados;
- demonstrativos e comprovantes em imagem;
- documentos escaneados;
- arquivos sem camada de texto.
Idiomas comuns:
| Valor | Idiomas |
|---|
por | Português |
eng | Inglês |
spa | Espanhol |
por+eng+spa | Português, inglês e espanhol |
Outputs
Os outputs dependem do tipo escolhido.
TXT
| Output | Tipo | Descrição |
|---|
text | string | Texto extraído |
JSON
| Output | Tipo | Descrição |
|---|
json | any | JSON parseado |
text | string | Texto original |
CSV e Excel
| Output | Tipo | Descrição |
|---|
rows | array | Linhas extraídas |
columns | array | Colunas detectadas |
rowCount | number | Quantidade de linhas |
sheets | array | Abas encontradas, no caso de Excel |
PDF
| Output | Tipo | Descrição |
|---|
text | string | Texto extraído |
pages | array | Texto por página |
pageCount | number | Quantidade de páginas processadas |
Exemplos
Extrair CSV
Arquivo: {{ steps["file-generate"].outputs.fileRef }}
Tipo de extração: CSV
Delimitador: ,
Tem cabeçalho: true
Uso posterior:
{{ steps["file-extract"].outputs.rows[0].email }}
{{ steps["file-extract"].outputs.rowCount }}
Extrair texto de PDF
Arquivo: {{ steps["http-request"].outputs.fileRef }}
Tipo de extração: PDF
Intervalo de páginas: 1-2
OCR: true
Idiomas OCR: por+eng+spa
Validação de Tipo
O nó valida se o arquivo é compatível com o tipo de extração. Se o arquivo não for suportado, o campo fica em vermelho no painel e a execução falha com mensagem clara, por exemplo:
Arquivo não suportado: planilha.xlsx
Dicas
- Escolha o tipo de extração de acordo com o conteúdo real do arquivo.
- Para PDF escaneado, habilite OCR; para PDF com texto real, deixe o OCR como fallback.
- Para CSV com
;, altere o delimitador antes de executar.
- Use
rows para alimentar loops, componentes, geração de arquivos ou validações.