[オープンソース]
[クローズドソース]
iText pdfOCRは、光学式文字認識機能により、スキャンした文書やPDF、 画像をISOに準拠したPDFやPDF/A-3uファイルに変換し、そこに含まれるテキストにアクセスし、 処理することを可能にします。
私たちは毎日、膨大な量のスキャン文書や印刷されたテキストを含む画像を受け取っています。 しかし、機械が読めるテキストがなければ、コンテンツを編集、検索、索引付け、処理することはできません。
文書管理における大きな課題の1つは、アクセス不能なデータ、 つまり編集不可能な文書に閉じ込められたデータを扱うことです。印刷されたテキストを含む文書をスキャンしても、 編集や検索ができるわけではなく、コンテンツのスキャン画像があるだけです。
光学式文字認識(OCR)は、このデータのロックを解除するのに役立ちます。 OCRの最も一般的な使用例の1つは、検索、処理、またはアーカイブが可能なドキュメントを作成することです。 現在、いくつかのワープロソフトやPDFアプリケーションは、PDFを編集可能にするOCR機能を提供していますが、 数個以上の文書に対して手作業でこれを行うのは非現実的です。
iText pdfOCR は、OCR プロセスを自動化し、文書ワークフローに統合する方法を提供します。
- ◆テキスト認識の自動化
- iText pdfOCRは、文書ワークフロープロセスへのテキスト認識の自動化を可能にします。
- ◆長期保存に最適
-
- iText pdfOCRは、PDF電子文書の長期保存規格であるPDF/A-3uに準拠したファイルを作成することができます。
- PAdES規格に基づく電子署名で文書を保護することも可能です。
- ◆iTextを使ったデータ加工・変換
- OCRを使用すると、追加処理やデータ変換を行うことができます。
iText pdfOCR を他の iText ソフトウェアと組み合わせて使用する場合の例をいくつかご紹介します。
- iText pdf2Data で特定の文書要素を抽出するよう定義
- iText pdfSweep で認識したテキストを安全に編集
- iText 7 Core を使って、抽出されたテキストを PDF フォームフィールドに入力
- iText pdfHTML から PDF への変換のために、テキストを HTML テンプレートに結合
- 認識したテキストを iText DITO で使用し、PDF テンプレートにデータバインディングと条件付き書式を追加
出力は、テキスト、ソースイメージデータと認識されたテキストを含むレイヤーからなるPDF、 またはレイヤーを結合したフラットなPDFとして設定することができます。 長期保存に適した文書が必要な場合は、PDF/A-3u出力のサポートが追加されます。
- Tesseract 4は、人気の高いオープンソースOCRエンジンの最新の安定版です。
- LSTM (Long Short-Term Memory) ニューラルネットワークを採用し、テキスト認識の速度と精度を向上させています。
- API はシンプルで使いやすく、Java と .NET の共通プラクティスに沿っています。
- 抽象化されているため、ユーザーがほとんど努力することなく、さまざまな OCR エンジンをサポートすることができます。
- 1枚の画像、または画像のリストを一度に処理することができます。
- BMP、PNM、PNG、JFIF、JPEG、TIFFの各フォーマットに対応。
- iText pdfOCRは、文書内のテキストを認識し、テキストファイルとして書き出すことができます。
- これは、外部データベースへの入力や他のツールとの併用が可能です。
iText pdfHTMLはHTMLからPDFへのコンバーターであり、HTMLやCSSをPDF文書へと簡単に変換します。 iText 7のアドオンとしてpdfHTMLを使用してすぐに使えるソリューションを実現したり、単独でも使用することもできます。
HTMLの構造情報を再利用すれば、PDF/A、PDF/UA、タグ付きPDFを簡単に作成できます。
- ◆HTMLツールと統合しやすい
- HTMLとCSSを利用して文書のレイアウトとスタイルを設定すれば、既存のHTMLとCSSスキルを活用してPDFを作成できます。 このアドオンはHTMLのツールと簡単に統合できます。
- ◆革新的で、カスタマイズされたオプションにより、HTMLからPDFへの変換が可能です。
- HTML要素は、HTML5とCSS3に基づいたiText要素へすでにマップされています。 カスタマイズするには、独自のハンドラをpdfHTMLフレームワークに追加するだけです。
- ◆構造化PDF文書の作成
- HTMLの構造情報と意味情報を再利用して、PDF/A、PDF/UA、タグ付きPDFを作成し、標準に準拠したPDF文書を作成します。
iText pdfHTMLでは便利なAPIを提供することで、HTMLファイルをPDFファイルやiText要素のリストに直接変換できるので、 HTML要素を解析して挿入する方法を細かく制御できます。
- 静的HTML5とCSS3をPDFへ変換
- 使いやすいAPIにより、変換はカスタマイズ可能で、動的かつシンプル
- 文書全体をPDFへ直接変換
- HTMLスニペットを「iTextの構成要素」に変換(HTMLリッチテキスト段落からiTextの段落オブジェクトへなど)
PDF/A、PDF/UA、タグ付きPDFが作成できます。
- バーコードなどの動的コンテンツをPDFに追加。
- コンバータープロパティとタグのカスタム処理を活用して、変換を微調整。
iText pdfSweepはiText 7の拡張機能で、確実かつ安全な方法でPDF文書の情報を削除(編集)することができ、 Javaまたは.NETで書かれています。 iText pdfSweepをクローズドソースで使用する場合には、iTextの商用ライセンスを購入する必要があります。
コンテンツをただ隠すのではなく、削除します。テキストのみならず画像も編集するので、徹底した機密保持が実現できます。
- ◆データを安全に保つ
- PDF文書を 開示する前に機密情報や個人情報を削除することができ、 「黒線」での編集と同等のデジタル処理などを使用します。
- ◆柔軟なオプション
- 社会保障番号、日付、IPアドレスなど、一般的なケース用に 事前に定義したパターン一式と一緒に正規表現を使用して、 文書全体の編集を自動化します。座標を用いてカスタム編集領域を定義し、 その中にあるコンテンツを削除します。
iText pdfSweepでは、iText 7の文書スタンプとウォーターマークツールを用いてPDF文書を編集する際に介入します。 iText pdfSweepでは、センシティブなテキスト上にデジタルの「黒線」を追加した後、文書のレンダリング指示を変更し、 隠したコンテンツが抽出できないようにします。 これはテキストにも画像にも動作するので、 文書のセキュリティが徹底的に向上します。 さらに、iText pdfSweepは5行のコードしか使っていないので、PDFワークフローへの統合に頭を悩ませることはほとんどありません。
正規表現などのパターンに基づいて、文書からテキストの一部分を分割、マージ、削除します。
デジタル黒線のように、必要に応じてコンテンツを削除する機能を提供します。
iText pdfSweepは、PDF文書の表示や印刷を行う際にレンダリングする外観の上で、基礎となるレンダリング命令とデータ構造も処理して、 削除した情報が回復不可能であることを確保します。
編集領域がコンテンツを部分的に覆っている場合、選択した領域のテキストや画像を削除することができます。
RUPSはPDFの構文を読み、更新し、PDFコードをデバッグするためのPDF診断ツールです。
PDF構文解析のためのPDF診断ツールは、iText Coreをベースに構築されており、PDFがどのように構築されているかを明確に把握し、 PDF構文にエラーがないかどうかを検査することができます。
PDFの中身はどうなっているのだろう?と思いながら、 プレーンテキストエディタでファイルを開くと怖くなってしまうという方、iText RUPSを試してみると、 多くの秘密が明かされることでしょう。
RUPSはPDF検査ツールで、お客様やユーザーから受け取ったPDFを検査するために、社内で多く使用しています。 RUPSは、PDFの更新も即座に行います。
- ◆デバッグのスピードアップ
-
- PDFファイルのオブジェクトとコンテンツストリームを調べます。
- 内部辞書の内容を検査します。
- XObjectsを調べて、ファイルサイズの膨張をチェックします。
- PDF 構文または XFA 技術に関する標準を満たします。
- ◆PDF 文書のデバッグ
- 解凍されたコンテンツ ストリームのコピー/貼り付け、ページ コンテンツのデバッグ、 イメージ ストリームの抽出を簡単に行うことができます。
RUPSは、開発者による開発者のためのツールで、内部診断ツールとしてiText社の研究所で生まれました。 開発者がPDFの様々なオブジェクトやコンテンツストリームを理解することで、より迅速なデバッグと修正を可能にします。
開発者は、PDFファイルのさまざまなオブジェクトやコンテンツストリームを理解することができ、 デバッグと修正を迅速に行うことができます。
PDFの内部辞書の内容を簡単に検査することができます。
XObjectの検査でファイルサイズの膨張をチェックし、XFA技術のPDF構文の標準化検査も行っています。
iText pdfXFAは商用ライセンスのアドオンで、iText 7の拡張機能です。 iText pdfXFAを使用すると、XFAフォームを静的PDFにフラット化し、PDFワークフローでさらに処理を行ったり、 アーカイブすることができます。 iText pdfXFAをクローズドソースで使用する場合には、iText 7の商用ライセンスを購入する必要があります。
追加のセキュリティとして、 XFAフォームを 静的PDFに フラット化し、 デジタル署名を追加することにより、 PDFワークフローで さらに処理を行ったり、アーカイブを行ったりできるようになります。
- ◆動的でインタラクティブなXFA形式を静的なPDF文書にフラット化
- iText pdfXFAを使用すると、XFAをテンプレートとして用いてXMLデータをPDFにレンダリングでき、 後に続くPDFワークフロー用にXFA形式を前処理することもできます。
- ◆視覚情報、構造情報、意味情報を保持
- iText pdfXFAは、視覚的に同等な表現をPDFにレンダリングするだけでなく、視覚情報、構造情報、意味情報を保持し、 アーカイブおよびアクセシビリティ標準に準拠した文書にこの情報を追加します。
動的PDFファイルを変換して保護します。フォームが完成すると、それを静的PDFにフラット化することで(偶発的な)修正を防止し、 デジタルに署名することにより、セキュリティをさらに向上させます。
iText pdfXFAのサポートを利用すると、タグ付きPDF、PDF/A、PDF/UAを作成することができます。
このアドオンではiText pdfXFAの便利なAPIを使用して、XFAファイルを簡単にフラット化します。
pdfCalligraphを使用すると、PDFタイポグラフィの高度なワークフロー機能を明らかにできます。 データ処理に適したPDFレンダリングライブラリ、編集オプションなどを含む、グローバル言語や書記体系に対応でき文書ワークフローを拡張します。
自動一括処理の場合、 PDF文書は通常、基本的なフォントに依存していました。つまり、フォント機能、テキストが重なる複雑な書記体系、 スクリプト関数、またはアラビア語、タミル語、カンナダ語等のテキストの並び替えが必要な言語などの高度なタイポグラフィ機能が使用できないということです。 iText pdfCalligraphはそれを可能としており世界中のあらゆる地域に貴社のサービスを提供することができるようにしました。
- ◆国際事業のサポート
- PDFのプログラミングを調整することなく、多言語向けの文書処理を使用することができます。 多文化ユーザー間で独自仕様ではないデータ形式をやり取りできます。さまざまな書記体系でPDF文書を大量に作成できます。
- ◆特殊言語を持つPDFへの巧妙な変換
- カンナダ語、 アラビア語、タミル語など、複数の言語にある特殊なフォントや文字をPDFで利用できます。
- ◆PDFにある書記体系の自動検出
- PDF作成時に使用されている書記体系を検出します。 スクリプト 固有の情報やフォント固有の情報に基づいてグリフの置換を行います。右から左へと読むアラビア語などは、 読み順に関する情報を追加します。
既製のPDFクリエイターでは、インド語派のデーヴァナーガリーのような文字のやり取りや書記体系、 及びテキストの分割が難しい複合テキストで問題が発生し、テキストの抽出が困難ですが、iText pdfCalligraphであれば可能です。
OpenType機能、カーニング、合字やグリフの代替などが使えます。
ブラーフミー系文字、アラビア語、ヘブライ語のスクリプトを使っている言語を含みます。
必要なフォント機能が有効になり、自動的に適用されます。手動設定が可能です。 iText pdfCalligraphは、iText 7 CoreおよびpdfHTMLとシームレスに統合します。
左寄せ、右寄せ、中央揃え、両端揃えができます。
iText pdf2Dataを使用すると、PDFの処理を自動化して、大量の同じ形式のPDF文書からデータを簡単に抽出することができます。 テンプレートで定義できる選択ルールに基づいて、PDF文書内にあるデータを認識するフレームワークを提供します。
iText pdf2DataはiText 7向け商用ライセンスのアドオンの1つで、商用目的やクローズドソースでこの製品を使用する場合には、 iText 7 Coreとpdf2Data向けの商用ライセンスが必要です。
データは重要な商品であり、認識できる以上のデータがPDF文書に隠されています。 当然のことながら、このデータを手動で収集するのは時間がかかり、入力ミスのリスクだけでなく、セキュリティ上の問題も高くなります。 iText pdf2Dataを使用すると、データを安全な方法で抽出するプロセスを自動化できます。
- ◆PDF版請求書や文書からのデータ抽出を自動化
- テンプレートで重要な情報を定義し、Javaや.NETでのプログラミングを用いて自動的に取り出すことで、 大量のPDFから データを抽出して処理します。
- ◆抽出したいデータ部分を具体的に定義する
- iText pdf2Dataテンプレートエディタを用いて、 テンプレートに抽出したい情報をすばやく定義します (PDF版 請求書の右上端に常にある住所のフィールドなど)。
- ◆既存の文書処理への統合
- iText pdf2Dataはオープン標準を使用して統合を容易にし、これにより、既存ワークフローへの統合を 容易かつ迅速に行います。 これにはJava用SDKと.NET用SDK、ならびにコマンドラインインターフェイスが含まれています。
iText pdf2Dataは、請求書や受領書など、同じ形式で作成されたPDF文書のテンプレート上の領域、フォント、パターン、 利息表を定義することで動作します。その後、セレクターを使って利息の領域を定義できます。 各セレクターはさまざまな方法を使用して重要な情報を識別し、ニーズに合わせて単独または組み合わせて使用できます。
iText 7 Coreの コンテンツ抽出機能を活用すると、テキストや画像に対する忠実度の高い認識プロセスを行うことができます。
このアドオンは拡張とカスタマイズできる柔軟性を持つ総合的でオリジナルな機能を備えています。 統合のしやすさとオープンスタンダードに重きを置いています。
目的の領域と選択ルールを定義すれば、必要なコンテンツを正確に取得できます。
抽出したコンテンツのページ座標にアクセスして、さらなる処理の為にデータを構造化し、再利用ができる形式で出力します。
iText pdfRenderはiText 7コアアドオンであり、PDFから画像を生成し、PDFを画像に効果的に変換して、 表示のニーズに合わせてPDFファイルレンダーを作成したり、 アーカイブや旧来のワークフロー要件との互換性を確保したりできます。
iText pdfRenderを使用すると、PDFビューアなしで、任意のデバイスで表示できるPDFページの正確なコピーを取得できます。
iText pdfRenderを使用すると、PDFを画像にレンダリングできます。 アドオンを使用すると、ページの小さなサムネイルやピクセル単位の高解像度画像を作成できます。
PDFの画像のレンダリングは、例に示すように、数行のコードで実現できます。高品質のレンダリングが必要な場合でも、 簡単なサムネイル画像である場合でも、サポートされているさまざまな画像形式から目的の出力を選択できます。
iText pdfRenderを使用して、単純または複雑なさまざまな画像ファイル形式でPDFファイルを表示します。 たとえば、PDFの単一のページを画像にレンダリングしたり、複数のページを複数の画像にレンダリングしたりできます。
iText pdfRenderを使用すると、画像タイプ、ページスケーリング、範囲を制御して、 画像出力品質は可能な限り最高なものとなります。
iText pdfRenderを使用すると、PDFリーダーをインストールしなくても、モバイルデバイス(または任意のプラットフォーム) にPDFを表示できます。
iText pdfXFAの機能を使用することで、XFAフォームを画像にレンダリングすることもできます。
iText pdfRenderは、PDFを画像としてレンダリングするための最も速くて便利な方法の1つです。
たとえば、本の表紙のサムネイルを作成したり、銀行取引明細書、法的文書、契約書、テンプレートなどをすばやく表示したりできます。 最終的に、PDFドキュメントの軽量でピクセルパーフェクトな画像になります。
PDFドキュメント自体の代わりにそれらの画像を使用して、アプリケーションでドキュメントを表示したり、アーカイブして保存したりできます。
画像は、モバイルデバイスまたは任意の環境で簡単に表示できます。PDFビューアをインストールする必要はなく、 PDFが正しく表示されるかどうか心配する必要もありません。
- ◆使いやすい
- iText pdfRenderは単純な設定を必要とします:PDFの画像としての完全に自動化されたレンダリングを有効にします。
- ◆Apache pdfBoxより3.5倍高速
- GhostScriptに相当(ネイティブ)
- ◆PDFファイルのプレビューとサムネイルを生成
- ファイル管理アプリケーション、ドキュメント管理システムなどでPDFドキュメントをプレビューします。
- ◆デジタル署名を簡単に表示
- iText pdfRenderを使用すると、画像を表示するのと同じくらい簡単に、デジタル署名されたPDFを表示できます。
iText pdfOffice は、iText 7 Core PDF ライブラリーの Java アドオンで、 Microsoft Office 文書の高品質なPDFへのネイティブ変換を可能にします。
現在、Word、PowerPoint、Excel の各フォーマットをサポートしており、 開発者がプログラムで文書を変換し、既存の iText ワークフローと容易に統合できる API を提供しています。
iText pdfOfficeは、高価なライセンス契約や変換コストをかけずに、 Office文書の最高クラスの変換を実現するために開発されました。 Office 97からOffice 2019、そして最新のOffice 365アップデートで作成されたファイルを扱うことができます。
特定の競合ソリューションとは異なり、変換を実行するために外部ソフトウェアに依存せず、すべてがネイティブで処理されます。 そのため、iText pdfOfficeアドオンと有効なライセンスさえあれば、サポートされているすべての文書形式の高忠実度の変換を可能にします。
次のコード例でご覧いただけるように、pdfOfficeを使えば、すぐに素晴らしい結果を得ることができます。 このコードサンプルは、Word文書(.docx)をPDFに変換する簡単な例を示しています。
毎年5千億枚以上のOffice文書が様々な業界で作成されていますが、配布、情報ガバナンス、データセキュリティポリシー、 アーカイブなどのユースケースに関しては、大きな欠点を持っています。 iText pdfOfficeを使えば、同じ文書の高精度なPDF版を得ることができ、広く配布、操作、または電子署名、安全な再編集、 注釈などの高度なPDF機能を使用できるように処理することができます。
最新のウェブブラウザはPDFの閲覧を幅広くサポートしており、iText pdfOfficeとpdfRenderを組み合わせて使用すれば、 どのようなデバイスやアプリケーションでも、追加の要件なしに、Office文書を正確に表示することができます。
- ◆高品質なネイティブ文書変換
- iText pdfOfficeからの出力は、ソースドキュメントに忠実に再現されます。 テキストや段落の書式は保持され、改行やページ区切りも保持され、文書内の画像、図形、表、WordArt、SmartArtにも対応しています。 さらに、変換にサードパーティソフトウェアは必要ありません。
- ◆ドキュメントの変換と処理を自動化
- iText pdfOfficeのAPIは、開発者に文書の変換を自動化する機能を提供し、ファイルだけでなく入出力ストリームを処理することも可能です。
- ◆iTextの高度なPDF機能を活用する
- 電子署名、パスワードによる暗号化、機密情報の編集で文書を保護します。ドキュメントアセンブリを使用して、 複数のドキュメントのデータを組み合わせたり、注釈や添付ファイルを追加したり、 ドキュメントのイメージレンダリングを作成したりすることができます。
pdfOfficeは、自動化およびバッチ処理に最適で、正確なPDF版が必要な場合も、 既存のiTextワークフローにその機能を統合したい場合も、ドキュメントを忠実に変換することが可能です。
pdfOffice は、Office 文書を PDF に変換するために特別に設計されており、 Office 文書に存在するすべての書式を維持したまま変換することができます。そのため、他のファイル形式には対応していません。 例えば、.txt ファイルを .docx として保存したり、ファイル名を変更してファイル拡張子を変更した場合、 pdfOffice はそのファイルに対して何をすべきかを理解していないと思われます。 .txt や .csv ファイルから PDF を作成する場合は、iText 7 Core で処理できます。 同様に、.xmlや.htmlの場合には、pdfHTMLをご利用ください。
iTextの製品として、ISOに準拠したPDFへの正確な変換とレンダリングが可能です。また、pdfOfficeはネイティブに文書変換を行うため、 追加のソフトウェアは必要ありません。
iText pdfOfficeは現在、.doc, .docx, .dotx, docm, .dotm, .dot, .ppt, .pptx, .potx, .pptm, .potm, .ppsx, .ppsm, .pot, .pps, xlsx, xls, xlsm, xltx, xltm, xlt, xlam, xla形式のファイル形式に対応しています。
iText pdfOfficeの機能は、pdfRenderによる文書の正確な画像レンダリング、pdfOptimizerによる文書の圧縮、 pdfSweepによる情報の安全な削除(編集)など、他のiText 7 Suiteアドオンと組み合わせて使用することが可能です。
iText pdfOfficeは、45言語、700以上のフォントのエミュレーションを内蔵しており、優れたテキストレンダリング、 世界的な互換性を確保し、フォントのライセンスコストを回避することができます。
pdfOptimizer は、iText 7 Core PDF ライブラリーの Java および .NET アドオンで、 開発者がさまざまな最適化オプションを細かく制御することで、PDF のサイズや速度を簡単に最適化できるようにします。
pdfOptimizerは、PDFに埋め込まれたストリームを最適に圧縮する機能、重複するフォントファイルのマージ、 未使用文字を削除するフォントのサブセット、印刷用のドキュメントの色空間変換など、幅広い機能を提供します。 また、最適化の結果を詳しく説明するカスタムレポートの作成も可能です。
PDFを最適化するためにプリセットプロファイルを使用したり、特定の最適化を制御するために FontDuplicationOptimizer (Java/.NET), CompressionOptimizer (Java/.NET), ImageQualityOptimizer (Java/.NET) といったクラスを使用することができます。
pdfOptimizerは、圧縮が適切に行われるように、最適化後にファイルや画像のサイズが大きくなったかどうかをチェックすることもできます。 そのため、例えば、PDFを一括して最適化したい場合、pdfOptimizerを使用してプロセスを自動化し、 オリジナルよりも大きなPDFを作成することがないようにすることができます。
- ◆プロファイルを使用して、必要な圧縮レベルを選択
- pdfOptimizerは、PDF最適化のために開発者が使用できるプリセットプロファイル(High, Mid, Low, Lossless, and Custom)を提供します。
- ◆フォント、文書構造、画像を最適化する方法
- フォントの最適化、文書構造の最適化、画像の最適化のための特定のクラスを利用できます。
- ◆バッチ処理と自動化に最適
- pdfOptimizerは、サイズチェック機構を備えているため、最適化後にファイルや画像のサイズが大きくなったかどうかをインテリジェントにチェックし、元に戻すことができます。 つまり、オリジナルよりも大きなPDFが出来上がらないことを保証することができます。