request.get()で指定したURLのHTML情報を取得したら、その内容をテキストデータで書き出してみようと思います。
Contents
環境
ざっくりMac
Python3.9を使用しています。
with open()で書き出す
withを使うとclose()を書き忘れることがないので便利です。
# 指定したurlの情報をresponseで受け取る
url = “https://xxx/xxx.html”
response = requests.get(url)
# 文字化け防止
response.encoding = response.apparent_encoding
# ファイルの名前を決める
name = “download.txt”
# ファイルを書き込みモードで開いて書き込んだら閉じる
with open(name, mode=”w”) as file:
# responseを文字データにして書き込む(インデントをhtmlで表示する方法がわからないのでスペースだ代用)
file.write(response.text)
おまけ モードについて
mode | 説明 |
---|---|
r | 読み込み (デフォルト) |
w | 書き込み(新規作成) |
a | 追加書き込み |
t | テキストモード (デフォルト) |
b | バイナリモード |
r+ | 既存ファイルの読み書き |
w+ | ファイルの読み書き(新規作成) |
a+ | 追記・読み書き |
モードを変えるだけでいろいろできそうです。
おわり
Pythonの書き方になれないけれど、短いコードでいろいろできて便利ですね。
これでhtmlを解析する準備ができたかな。スクレイピングの道のりは遠いな。