PythonでWord(ワード)の使い方についてです。
この記事の内容はコチラです
- PythonでWordの文書をすべて取得する
- Wordのテキスト文字列を取得する
マイクロソフトOfficeの1つである「Word」は文書作成で使用される有名なアプリです。
今回は、Word(ワード)の文書をすべて取得する方法を紹介します。
Word(ワード)の文書をすべて取得する方法
事前準備(python-docxのインストール)
PythonでWord(ワード)を操作するには、外部パッケージ「python-docx」が便利です。「python-docx」を使うので、事前にインストールが必要です。
「python-docx」のインストールはこちらを参照してください。
Wordの文書を取得する例
Word(ワード)の文書を取り出す例を紹介します。
今回取得するワードはこちらです。
こちらがワード文書を取り出す例です。
import docx doc= docx.Document('C:\pg\Python入門.docx') txt = [] # ワードから文書を取得 for par in doc.paragraphs: txt.append(par.text) print(txt) #[結果] ['Python入門 プログラミング', '', '', 'インストール', '', '', ~途中省略~ #[結果] '関数の使い方(4パターン)', '例外処理の使い方(try except)']
これでワードの文書をすべて取得することができました。
ワード文書取得の解説
インポート
import docx
まず「import docx」で「python-docx」をインポートします。
Document
doc= docx.Document('C:\pg\Python入門.docx')
「docx.Document(ファイル名)」でワードを指定し、変数「doc」にワード文書を読み込みました。
paragraphs
for par in doc.paragraphs: txt.append(par.text)
「python-docx」では読み込んだワード文書は「paragraphs」で取得できます。
「paragraphs」は段落単位でリスト型で取得できます。「paragraphs」はリスト型なので、ここでは「for ~ in」を使って、順番に「paragraphs」の中身を取り出しています。
ワードの段落内の文章は「text」で取り出せます。ここでは「par.text」で取り出し、それを「append」で結合して1つの文書になるようにしました。
このように、「python-docx」を使うと、ワードの文書をかんたんに取得することができます。
python-docx公式ページ:https://python-docx.readthedocs.io/en/latest/index.html#
【Python】Wordのスタイルを変更する(太字・下線・文字色・蛍光ペン)
PythonでWordの使い方についてです。 この記事の内容はコチラです PythonでWord(ワード)のテキストスタイル(太字・下線・斜体・文字色・蛍光ペン)を変更する 太字にする 文字色を変更する 背景色を変更する 今回は、Word(...
【Python】Wordの文書をすべて取得する方法
PythonでWord(ワード)の使い方についてです。 この記事の内容はコチラです PythonでWordの文書をすべて取得する Wordのテキスト文字列を取得する マイクロソフトOfficeの1つである「Word」は文書作成で使用される有...
以上、Pythonで Word(ワード)の文書をすべて取得する方法でした。
コメント