Logo de QANode

Nodo Extraer Archivo

El nodo Extraer Archivo lee un archivo recibido como fileRef y devuelve texto o datos estructurados según el tipo de extracción elegido.


Visión General

PropiedadValor
Tipofile-extract
CategoríaArchivos
Color🟤 Dorado (#C89F65)
Entradain
Salidaout

Cuándo Usar

Usa este nodo cuando el flujo necesita:

  • leer TXT o Markdown como texto;
  • validar o reutilizar contenido JSON;
  • transformar CSV en filas estructuradas;
  • leer planillas Excel;
  • extraer texto de PDF;
  • usar OCR como fallback cuando el PDF es una imagen.

Configuración

CampoTipoDescripción
ArchivofileRefArchivo de entrada
Tipo de extracciónselecciónTXT, JSON, CSV, Excel o PDF

Los campos siguientes cambian según el tipo de extracción.

TXT

CampoDescripción
CodificaciónCodificación usada para leer el texto, como utf8

JSON

CampoDescripción
CodificaciónCodificación usada para leer el archivo

El contenido debe ser JSON válido.

CSV

CampoDescripción
DelimitadorSeparador de columnas, como , o ;
Tiene encabezadoUsa la primera línea como nombres de columnas
CodificaciónCodificación del archivo

Excel

CampoDescripción
Nombre de hojaHoja a leer. Si está vacío, usa la primera hoja
Fila de encabezadoFila usada como encabezado

PDF

CampoDescripción
Rango de páginasPáginas a extraer, como 1-3,5
OCRActiva OCR como fallback para PDFs en imagen
Idiomas OCRIdiomas del OCR, como por+eng+spa
Escala OCREscala usada al renderizar antes del OCR

OCR en PDF

Cuando el PDF tiene texto real, QANode intenta extraerlo directamente. Si el PDF parece ser imagen, el OCR puede usarse automáticamente como fallback.

Usa OCR para:

  • PDFs escaneados;
  • comprobantes y recibos en imagen;
  • documentos digitalizados;
  • archivos sin capa de texto.

Idiomas comunes:

ValorIdiomas
porPortugués
engInglés
spaEspañol
por+eng+spaPortugués, inglés y español

Outputs

Los outputs dependen del tipo elegido.

TXT

OutputTipoDescripción
textstringTexto extraído

JSON

OutputTipoDescripción
jsonanyJSON parseado
textstringTexto original

CSV y Excel

OutputTipoDescripción
rowsarrayFilas extraídas
columnsarrayColumnas detectadas
rowCountnumberCantidad de filas
sheetsarrayHojas encontradas, para Excel

PDF

OutputTipoDescripción
textstringTexto extraído
pagesarrayTexto por página
pageCountnumberCantidad de páginas procesadas

Ejemplos

Extraer CSV

Archivo: {{ steps["file-generate"].outputs.fileRef }}
Tipo de extracción: CSV
Delimitador: ,
Tiene encabezado: true

Uso posterior:

{{ steps["file-extract"].outputs.rows[0].email }}
{{ steps["file-extract"].outputs.rowCount }}

Extraer texto de PDF

Archivo: {{ steps["http-request"].outputs.fileRef }}
Tipo de extracción: PDF
Rango de páginas: 1-2
OCR: true
Idiomas OCR: por+eng+spa

Validación de Tipo

El nodo valida si el archivo es compatible con el tipo de extracción. Si el archivo no es soportado, el campo queda en rojo en el panel y la ejecución falla con un mensaje claro, por ejemplo:

Archivo no soportado: planilla.xlsx

Consejos

  • Elige el tipo de extracción según el contenido real del archivo.
  • Para PDF escaneado, habilita OCR; para PDF con texto real, deja OCR como fallback.
  • Para CSV con ;, cambia el delimitador antes de ejecutar.
  • Usa rows para alimentar loops, componentes, generación de archivos o validaciones.