Adrian Short 11 년 전
커밋
bc2b77399a
1개의 변경된 파일23개의 추가작업 그리고 0개의 파일을 삭제
  1. +23
    -0
      extract-urls.py

+ 23
- 0
extract-urls.py 파일 보기

@@ -0,0 +1,23 @@
# Extract URLs from a web page to a CSV file
# $ python extract-urls.py http://mysite.com/mypage.html myfile.csv
# By Adrian Short 6 Sep 2012
import sys
import urllib
import csv
from bs4 import BeautifulSoup

url = sys.argv.pop(1)
out_fn = sys.argv.pop(1) # output filename for CSV file

infile = urllib.urlopen(url)
html = infile.read()
soup = BeautifulSoup(html)

with open(out_fn, 'wb') as outfile:
writer = csv.writer(outfile)
# You can use a CSS selector as an alias for find_all()
for link in soup('a'):
writer.writerow([link.string, link.get('href')])

불러오는 중...
취소
저장