Der folgende Link extrahiert alle URLs für eine bestimmte Webseite.
#!/usr/bin/env Python3 # Python Version: 3.4.2 # BS4 Version: 4.3.2-2 von Urllib.Anfrage import urlopen von bs4 import BeautifulSoup html importieren = urlopen ("http: // gnu.org ") # Legen Sie Ihre URL ein, um BSOBJ zu extrahieren = BeautifulSoup (HTML.lesen()); für Verknüpfung In BSOBJ.find_all ('a'): drucken(Verknüpfung.Get ('href'))
Speichern Sie das obige Skript in einer Datei zB. Extrakt-url.py
und machen Sie es ausführbar:
$ chmod +x extract-url.py
Führen Sie das Skript aus:
$ ./Extract-url.py