【Python】Wordの文書をすべて取得する方法

PythonでWord（ワード）の使い方についてです。

この記事の内容はコチラです

PythonでWordの文書をすべて取得する
Wordのテキスト文字列を取得する

マイクロソフトOfficeの１つである「Word」は文書作成で使用される有名なアプリです。

今回は、Word（ワード）の文書をすべて取得する方法を紹介します。

Word（ワード）の文書をすべて取得する方法

Word（ワード）の文書をすべて取得する方法

事前準備（python-docxのインストール）

PythonでWord（ワード）を操作するには、外部パッケージ「python-docx」が便利です。「python-docx」を使うので、事前にインストールが必要です。

「python-docx」のインストールはこちらを参照してください。

Python-Docxをインストールする方法

Pythonでは標準以外にも外部パッケージ・モジュールが多数用意されています。今回は、Pythonで簡単にWord（ワード）を操作できるパッケージ「Python-Docx」をWindowsでインストールする方法を紹介します。マイクロソフトの...

Wordの文書を取得する例

Word（ワード）の文書を取り出す例を紹介します。

今回取得するワードはこちらです。

こちらがワード文書を取り出す例です。

import docx

doc= docx.Document('C:\pg\Python入門.docx')

txt = []

# ワードから文書を取得
for par in doc.paragraphs:
    txt.append(par.text)

print(txt)
#[結果] ['Python入門 プログラミング', '', '', 'インストール', '', '', ～途中省略～
#[結果] '関数の使い方（4パターン）', '例外処理の使い方（try except）']

これでワードの文書をすべて取得することができました。

ワード文書取得の解説

インポート

import docx

まず「import docx」で「python-docx」をインポートします。

Document

doc= docx.Document('C:\pg\Python入門.docx')

「docx.Document(ファイル名)」でワードを指定し、変数「doc」にワード文書を読み込みました。

paragraphs

for par in doc.paragraphs:
    txt.append(par.text)

「python-docx」では読み込んだワード文書は「paragraphs」で取得できます。

「paragraphs」は段落単位でリスト型で取得できます。「paragraphs」はリスト型なので、ここでは「for ～ in」を使って、順番に「paragraphs」の中身を取り出しています。

ワードの段落内の文章は「text」で取り出せます。ここでは「par.text」で取り出し、それを「append」で結合して１つの文書になるようにしました。

このように、「python-docx」を使うと、ワードの文書をかんたんに取得することができます。

python-docx公式ページ：https://python-docx.readthedocs.io/en/latest/index.html#

【Python】Wordのスタイルを変更する（太字・下線・文字色・蛍光ペン）

PythonでWordの使い方についてです。この記事の内容はコチラです PythonでWord（ワード）のテキストスタイル（太字・下線・斜体・文字色・蛍光ペン）を変更する太字にする文字色を変更する背景色を変更する今回は、Word（ワー...

https://pg-chain.com/python-word

以上、Pythonで Word（ワード）の文書をすべて取得する方法でした。