PDFファイルやwebページからテキストをコピーし、Wordに貼り付けると、行ごとに改行されてしまう場合がときどきあります。
そんな時は、一行毎に改行されている箇所をつなぐ作業が必要になります。
特に、英文テキストなどは、この作業が不可欠。機械翻訳するときに、細切れのテキストではうまく訳せません。
短いテキストならば、ひとつひとつ手作業でやっても問題ないのですが、数十ページもあるテキストの各行をつなぐ作業は、考えただけでもいやになります。
そこで今日は、行毎に改行されてしまったテキストをつなぐ方法をご紹介します。
余計な改行、文字を一括削除する
今回サンプルとして使ったPDFの英文テキストでは、Wordにコピーペすると1行ごとに改行された状態になります。これはもう手作業で削除するのは不可能なレベルです。
(編集記号を表示にしたら、単語間のスペースに中点・中黒マーク [ ・ ] がすべて挿入されているように見えます。これは空白が中点・中黒マークで表示されているだけなので、実際には空白です。勘違いしてしまいました。)
そこで、今回は、改行を一括して削除します。
改行を一括削除することにより、本来改行されていた部分も削除され、ひとつのつながったテキストになってしまいますが、 段落の数は行の数に比べ圧倒的に少ないので。それは後で修正することにします。
以下、Word上での手順です。
1. テキストを選択する。
2. [ホーム]タブの[編集]グループ、[置換]をクリック
(青字の部分は無視して下さい。勘違いしていました。)
3. [あいまい検索]のチェックを外す。[特殊文字]をクリック
4. 開いたリストから[段落記号]を選択
([検索する文字列]覧に [^p] と表示される。)
5. [すべて置換]をクリック。改行がすべて削除され、つながったテキストになります。
上で、勘違いしてしまった「中点・中黒マーク」がもし本当に入っていたら、同様の手順で削除できます。
[検索する文字列]覧に [・] 、置換後の文字列]覧に [^s] と入力して置き換えます。 [^s]は「改行をしない半角スペースのコードです。
英文で、単語の途中で改行するときに付けられるハイフネーション(半角ハイフン)を削除するには、[検索する文字列]覧に [-] 、置換後の文字列]覧には何も入力せずに[すべて置換]をクリックし削除します。
[特殊文字]のリストの中に他のコードもあるので、必要に応じて探して見て下さい。
さらに特殊な置き換えをするには、ワイルドカードを使います。ワイルドカードについては、こちらのサイトさんの記事「ワイルドカードとは何か?」が参考になると思います。