BeautifulSoup
htmlとかxmlをよしなに読み取ってくれる。どっちかというとhtml寄り。
lxmlのインストール
「lxml」はpythonにおけるxmlのパーサ。Cベースで書かれているため高速なので、他のパッケージの多くも裏ではこれを使ってたりする。入れてなければインストールしておく。
> conda install lxml
または
> pip install lxml
xmlの読み取り
1 2 3 4 5 6 |
from bs4 import BeautifulSoup xml_path = 'xml.xml' with open (xml_path) as rh: soup = BeautifulSoup(rh, 'lxml' ) |
- タグ名は、元ファイルが大文字でも小文字に変換される
- namespace付きのタグでも、名前空間ごと指定すれば取得できる