BeautifulSoup

htmlとかxmlをよしなに読み取ってくれる。どっちかというとhtml寄り。

lxmlのインストール

「lxml」はpythonにおけるxmlのパーサ。Cベースで書かれているため高速なので、他のパッケージの多くも裏ではこれを使ってたりする。入れてなければインストールしておく。

> conda install lxml

または

> pip install lxml

xmlの読み取り

from bs4 import BeautifulSoup

xml_path = 'xml.xml'

with open(xml_path) as rh:
    soup = BeautifulSoup(rh, 'lxml')

  • タグ名は、元ファイルが大文字でも小文字に変換される
  • namespace付きのタグでも、名前空間ごと指定すれば取得できる
本WebサイトはcookieをPHPのセッション識別および左欄目次の開閉状況記憶のために使用しています。同意できる方のみご覧ください。More information about cookies
programming/python/packages/beautifulsoup.txt · 最終更新: 2017/03/14 by ikatakos
CC Attribution 4.0 International
Driven by DokuWiki Recent changes RSS feed Valid CSS Valid XHTML 1.0