Package: orderanalyzer 1.0.0

orderanalyzer: Extracting Order Position Tables from PDF-Based Order Documents

Functions for extracting text and tables from PDF-based order documents. It provides an n-gram-based approach for identifying the language of an order document. It furthermore uses R-package 'pdftools' to extract the text from an order document. In the case that the PDF document is only including an image (because it is scanned document), R package 'tesseract' is used for OCR. Furthermore, the package provides functionality for identifying and extracting order position tables in order documents based on a clustering approach.

Authors:Michael Scholz [cre, aut], Joerg Bauer [aut]

orderanalyzer_1.0.0.tar.gz
orderanalyzer_1.0.0.zip(r-4.5)orderanalyzer_1.0.0.zip(r-4.4)orderanalyzer_1.0.0.zip(r-4.3)
orderanalyzer_1.0.0.tgz(r-4.5-any)orderanalyzer_1.0.0.tgz(r-4.4-any)orderanalyzer_1.0.0.tgz(r-4.3-any)
orderanalyzer_1.0.0.tar.gz(r-4.5-noble)orderanalyzer_1.0.0.tar.gz(r-4.4-noble)
orderanalyzer_1.0.0.tgz(r-4.4-emscripten)orderanalyzer_1.0.0.tgz(r-4.3-emscripten)
orderanalyzer.pdf |orderanalyzer.html✨
orderanalyzer/json (API)

# Install 'orderanalyzer' in R:

install.packages('orderanalyzer', repos = c('https://michael-scholz-dev.r-universe.dev', 'https://cloud.r-project.org'))

On CRAN:

This package does not link to any Github/Gitlab/R-forge repository. No issue tracker or development information is available.

1.00 score 124 downloads 3 exports 39 dependencies

Last updated 4 months agofrom:1a49489785. Checks:9 OK. Indexed: yes.

Target	Result	Latest binary
Doc / Vignettes	OK	Mar 13 2025
R-4.5-win	OK	Mar 13 2025
R-4.5-mac	OK	Mar 13 2025
R-4.5-linux	OK	Mar 13 2025
R-4.4-win	OK	Mar 13 2025
R-4.4-mac	OK	Mar 13 2025
R-4.4-linux	OK	Mar 13 2025
R-4.3-win	OK	Mar 13 2025
R-4.3-mac	OK	Mar 13 2025

Exports:extractTables extractText identifyLanguage

Dependencies:cli cpp11 data.table digest dplyr fansi fastmatch generics glue ISOcodes jsonlite lattice lifecycle lubridate magrittr Matrix matrixcalc pillar pkgconfig purrr quanteda R6 Rcpp rlang rlist SnowballC stopwords stringi stringr tibble tidyr tidyselect timechange utf8 vctrs withr XML xml2 yaml

Help page	Topics
Extracting order position tables from PDF-based order documents	orderanalyzer-package orderanalyzer
Extract tables from a given words-dataframe	extractTables
Extracts the text from a PDF file	extractText
Identifies the language of a given text based on frequent trigrams	identifyLanguage

Package: orderanalyzer 1.0.0

orderanalyzer: Extracting Order Position Tables from PDF-Based Order Documents

Citation

Readme and manuals

Help Manual

Usage by other packages (reverse dependencies)