@niicojs/text-extractor

Text extraction helpers for Node.js. Supports PDF, Word, and PowerPoint files from ArrayBuffer or Node Buffer inputs.

Install

pnpm add @niicojs/text-extractor

Usage

import { readFile } from 'node:fs/promises';

import { extractFromPdf, extractFromPowerPoint, extractFromWord, extractText } from '@niicojs/text-extractor';

const pdfBuffer = await readFile('document.pdf');
const pdfText = await extractFromPdf(pdfBuffer);

const docxBuffer = await readFile('document.docx');
const wordText = await extractFromWord(docxBuffer);

const pptxBuffer = await readFile('presentation.pptx');
const powerPointText = await extractFromPowerPoint(pptxBuffer);

const text = await extractText(pdfBuffer, 'pdf');

API

`extractText(input: ArrayBuffer | Buffer, ext: 'pdf' | 'pptx' | 'docx' | 'txt')`

Dispatches to the matching extractor based on ext. For txt, it decodes the input with TextDecoder.

`extractFromPdf(buffer: ArrayBuffer | Buffer)`

Extracts merged text from a PDF using unpdf.

`extractFromWord(buffer: ArrayBuffer | Buffer)`

Extracts text from a Word document using @niicojs/word.

`extractFromPowerPoint(buffer: ArrayBuffer | Buffer)`

Extracts text from PowerPoint slides in slide order. Text runs within the same slide are separated by newlines, and slides are separated by blank lines.

Development

Use Vite+ (vp) for project commands.

vp install
vp check
vp test
vp pack

vp check --fix fixes formatting and lint issues.
vp test run tests/index.test.ts runs one test file.
vp pack --watch builds in watch mode.

Tests

The test suite covers the public extractors and verifies that sliced Buffer inputs pass only their visible bytes to the underlying parsers.

Name		Name	Last commit message	Last commit date
Latest commit History 4 Commits
.vscode		.vscode
examples		examples
src		src
tests		tests
.gitignore		.gitignore
AGENTS.md		AGENTS.md
README.md		README.md
package.json		package.json
pnpm-lock.yaml		pnpm-lock.yaml
pnpm-workspace.yaml		pnpm-workspace.yaml
tsconfig.json		tsconfig.json
vite.config.ts		vite.config.ts

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

@niicojs/text-extractor

Install

Usage

API

`extractText(input: ArrayBuffer | Buffer, ext: 'pdf' | 'pptx' | 'docx' | 'txt')`

`extractFromPdf(buffer: ArrayBuffer | Buffer)`

`extractFromWord(buffer: ArrayBuffer | Buffer)`

`extractFromPowerPoint(buffer: ArrayBuffer | Buffer)`

Development

Tests

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

@niicojs/text-extractor

Install

Usage

API

extractText(input: ArrayBuffer | Buffer, ext: 'pdf' | 'pptx' | 'docx' | 'txt')

extractFromPdf(buffer: ArrayBuffer | Buffer)

extractFromWord(buffer: ArrayBuffer | Buffer)

extractFromPowerPoint(buffer: ArrayBuffer | Buffer)

Development

Tests

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

`extractText(input: ArrayBuffer | Buffer, ext: 'pdf' | 'pptx' | 'docx' | 'txt')`

`extractFromPdf(buffer: ArrayBuffer | Buffer)`

`extractFromWord(buffer: ArrayBuffer | Buffer)`

`extractFromPowerPoint(buffer: ArrayBuffer | Buffer)`

Packages