【Python】Wordの文書をすべて取得する方法

スポンサーリンク

PythonでWord(ワード)の使い方についてです。

この記事の内容はコチラです

  • PythonでWordの文書をすべて取得する
  • Wordのテキスト文字列を取得する

マイクロソフトOfficeの1つである「Word」は文書作成で使用される有名なアプリです。

今回は、Word(ワード)の文書をすべて取得する方法を紹介します。

Word(ワード)の文書をすべて取得する方法

事前準備(python-docxのインストール)

PythonでWord(ワード)を操作するには、外部パッケージ「python-docx」が便利です。「python-docx」を使うので、事前にインストールが必要です。

「python-docx」のインストールはこちらを参照してください。

Wordの文書を取得する例

Word(ワード)の文書を取り出す例を紹介します。

今回取得するワードはこちらです。

こちらがワード文書を取り出す例です。

import docx

doc= docx.Document('C:\pg\Python入門.docx')

txt = []

# ワードから文書を取得
for par in doc.paragraphs:
    txt.append(par.text)

print(txt)
#[結果] ['Python入門 プログラミング', '', '', 'インストール', '', '', ~途中省略~
#[結果] '関数の使い方(4パターン)', '例外処理の使い方(try except)']

これでワードの文書をすべて取得することができました。

ワード文書取得の解説

インポート

import docx

まず「import docx」で「python-docx」をインポートします。

Document

doc= docx.Document('C:\pg\Python入門.docx')

「docx.Document(ファイル名)」でワードを指定し、変数「doc」にワード文書を読み込みました。

paragraphs

for par in doc.paragraphs:
    txt.append(par.text)

「python-docx」では読み込んだワード文書は「paragraphs」で取得できます。

「paragraphs」は段落単位でリスト型で取得できます。「paragraphs」はリスト型なので、ここでは「for ~ in」を使って、順番に「paragraphs」の中身を取り出しています。

ワードの段落内の文章は「text」で取り出せます。ここでは「par.text」で取り出し、それを「append」で結合して1つの文書になるようにしました。

このように、「python-docx」を使うと、ワードの文書をかんたんに取得することができます。

python-docx公式ページhttps://python-docx.readthedocs.io/en/latest/index.html#

以上、Pythonで Word(ワード)の文書をすべて取得する方法でした。

コメント