Bibliothèque nationale de France
bibnum.bnf.fr ]

Dernière mise à jour : octobre 2005

BAT : BnfArcTools

Les BAT sont un module Perl pour manipuler des fichiers aux formats ARC, DAT et CDX. Ils sont développés par la Bibliothèque nationale de France (BnF) et distribués sous licence GPL. La version actuelle supporte la manipulation de toutes les versions d'ARC (v1, v2), et celle générée par Heritrix (v1.1). Il offre en plus un outil appelé ats directement utilisable pour la gestion de très gros fichiers (testé sur plus de 280 000 fichiers ARC).

Les BAT font partie de la chaîne d'outils du consortium IIPC (International Internet Preservation Consortium).

Quelques caractéristiques :

  • affichage du contenu soit par offset soit par intervalles d'offsets (ordre ascendant, descendant),
  • manipulation de fichier distant (FTP, HTTP), support de proxy,
  • lecture de fichiers compressés (gzip) ou non,
  • recherche par type MIME ou liste de types MIME,
  • recherche par URL ou liste d'URLs,
  • recherche par expressions régulières dans tous les modes pré-cités.

Version actuelle : 0.07 - télécharger | mises à jour | guide d'installation

Contact : Younès Hafri ()


BAT : BnfArcTools

BAT is a Perl package for processing Internet Archive ARC, DAT and CDX file format. This package was developped and is still maintained by the National Library of France (BnF) and is distributed under the GPL licence. It is compliant with all versions of ARC format (v1, v2), including the 1.1 generated by the Heritrix crawler. It comes along with a tool named ats, which can be used to manipulating very large files (it was tested on 280,000 ARC files).

The BAT package is part of the IIPC (International Internet Preservation Consortium) toolkit for setting up a web archiving chain.

Some features:

  • display content using offset or offset range (ascending or descending),
  • manipulation of remote files manipulation (FTP, HTTP), supporting proxy,
  • reading of both compressed (gziped) and uncompressed files,
  • search by MIME type or MIME type list,
  • search by URL or URL list,
  • search by regular expression.

Current version: 0.07 - download | changes | install process

Contact: Younès Hafri ()