入稿に関して文字(TXT)の部分は、ほとんどデータで支給されるようになってきている。その時にデータは、テキスト形式でお願いしているのですが、まだまだいろいろなファイル形式のデータを受け取ります。最悪なのがワープロで組んでしまった段組や表組。テキスト形式に変換しても、テキストデータの修正だけで大変な時間と労力がかかってしまう(入力に出した方が安くて早い場合もある)。ファイルを開いてみてどうしようもないデータは、テキスト形式ではなくHTMLに書き出して(ネットも含め)貰うようにしている。
HTMLならブラウザからテキストに書き出すこともできますし、PDFに変換することだってできるので、最適なフォーマットだと思っています。
HTMLをPDFにするには
1. HTMLをブラウザで開いてPDFwriterで印刷を実行すれば、PDFファイルに変換されます。
2. PDFに変換されるとAcrobat Readerが立ち上がり、変換されたPDFファイルが開きます。
3. 開いたファイルをAcrobatの範囲選択ツールを使い、抽出したい文字をドラッグで囲んでコピー、エディタを開いてペーストします。また、全てを選択し、コピー&ペースト。
Acrobat(Readerでも可)の範囲選択ツールは、PDF内の表組の罫線などは選択されずに文字のみを選択、抽出できるという貴重なツールです。また、このツールは列でも行でも関係なく、どこでも選択できるツールです。
何故PDFにするのかというと、PDFにしてしまえばAcrobatでもAcrobat Readerで開け、またIllustrator9.0なら編集もできるからです。

PDFを使用してテキストの抽出から表組み GIFアニメ