Nodo Extraer Archivo
El nodo Extraer Archivo lee un archivo recibido como fileRef y devuelve texto o datos estructurados según el tipo de extracción elegido.
Visión General
| Propiedad | Valor |
|---|
| Tipo | file-extract |
| Categoría | Archivos |
| Color | 🟤 Dorado (#C89F65) |
| Entrada | in |
| Salida | out |
Cuándo Usar
Usa este nodo cuando el flujo necesita:
- leer TXT o Markdown como texto;
- validar o reutilizar contenido JSON;
- transformar CSV en filas estructuradas;
- leer planillas Excel;
- extraer texto de PDF;
- usar OCR como fallback cuando el PDF es una imagen.
Configuración
| Campo | Tipo | Descripción |
|---|
| Archivo | fileRef | Archivo de entrada |
| Tipo de extracción | selección | TXT, JSON, CSV, Excel o PDF |
Los campos siguientes cambian según el tipo de extracción.
TXT
| Campo | Descripción |
|---|
| Codificación | Codificación usada para leer el texto, como utf8 |
JSON
| Campo | Descripción |
|---|
| Codificación | Codificación usada para leer el archivo |
El contenido debe ser JSON válido.
CSV
| Campo | Descripción |
|---|
| Delimitador | Separador de columnas, como , o ; |
| Tiene encabezado | Usa la primera línea como nombres de columnas |
| Codificación | Codificación del archivo |
Excel
| Campo | Descripción |
|---|
| Nombre de hoja | Hoja a leer. Si está vacío, usa la primera hoja |
| Fila de encabezado | Fila usada como encabezado |
PDF
| Campo | Descripción |
|---|
| Rango de páginas | Páginas a extraer, como 1-3,5 |
| OCR | Activa OCR como fallback para PDFs en imagen |
| Idiomas OCR | Idiomas del OCR, como por+eng+spa |
| Escala OCR | Escala usada al renderizar antes del OCR |
OCR en PDF
Cuando el PDF tiene texto real, QANode intenta extraerlo directamente. Si el PDF parece ser imagen, el OCR puede usarse automáticamente como fallback.
Usa OCR para:
- PDFs escaneados;
- comprobantes y recibos en imagen;
- documentos digitalizados;
- archivos sin capa de texto.
Idiomas comunes:
| Valor | Idiomas |
|---|
por | Portugués |
eng | Inglés |
spa | Español |
por+eng+spa | Portugués, inglés y español |
Outputs
Los outputs dependen del tipo elegido.
TXT
| Output | Tipo | Descripción |
|---|
text | string | Texto extraído |
JSON
| Output | Tipo | Descripción |
|---|
json | any | JSON parseado |
text | string | Texto original |
CSV y Excel
| Output | Tipo | Descripción |
|---|
rows | array | Filas extraídas |
columns | array | Columnas detectadas |
rowCount | number | Cantidad de filas |
sheets | array | Hojas encontradas, para Excel |
PDF
| Output | Tipo | Descripción |
|---|
text | string | Texto extraído |
pages | array | Texto por página |
pageCount | number | Cantidad de páginas procesadas |
Ejemplos
Extraer CSV
Archivo: {{ steps["file-generate"].outputs.fileRef }}
Tipo de extracción: CSV
Delimitador: ,
Tiene encabezado: true
Uso posterior:
{{ steps["file-extract"].outputs.rows[0].email }}
{{ steps["file-extract"].outputs.rowCount }}
Extraer texto de PDF
Archivo: {{ steps["http-request"].outputs.fileRef }}
Tipo de extracción: PDF
Rango de páginas: 1-2
OCR: true
Idiomas OCR: por+eng+spa
Validación de Tipo
El nodo valida si el archivo es compatible con el tipo de extracción. Si el archivo no es soportado, el campo queda en rojo en el panel y la ejecución falla con un mensaje claro, por ejemplo:
Archivo no soportado: planilla.xlsx
Consejos
- Elige el tipo de extracción según el contenido real del archivo.
- Para PDF escaneado, habilita OCR; para PDF con texto real, deja OCR como fallback.
- Para CSV con
;, cambia el delimitador antes de ejecutar.
- Usa
rows para alimentar loops, componentes, generación de archivos o validaciones.