added proxy downloader

2017-06-10 02:09:22 +02:00 · 2017-06-10 02:09:22 +02:00 · c205e1b627
commit c205e1b627
parent 35d3b11ec6
7 changed files with 147 additions and 0 deletions
--- a/#duck-duck-go.py#
+++ b/#duck-duck-go.py#
@ -0,0 +1,38 @@
 import requests
 from string import Template
 from random import choice
 class DuckDuckGo(object):
    """Documentation for DuckDuckGo
    """
    def __init__(self, proxies=None, language=''):
        self.proxies = [] if proxies is None else proxies
        self.language = language
        self.query = Template('https://duckduckgo.com/html/?q=$query&kl=$lang')
    def _get(self, query, language):
        if self.proxies:
            proxy = choice(self.proxies)
            ip_port = proxy[0]
            protocol = proxy[1]
            link = self.query.substitute(query=query, lang=language)
            proxies = {protocol: ip_port}
            requests.get(link, proxies=proxies)
        else:
    def body(self, query, language):
        pass
    def links(self, query, language):
        pass
 def main():
    pass
 if __name__ == '__main__':
    main()
--- a/duckduckgo.py
+++ b/duckduckgo.py
@ -0,0 +1,38 @@
 import requests
 from string import Template
 from random import choice
 class DuckDuckGo(object):
    """Documentation for DuckDuckGo
    """
    def __init__(self, proxies=None, language=''):
        self.proxies = [] if proxies is None else proxies
        self.language = language
        self.query = Template('https://duckduckgo.com/html/?q=$query&kl=$lang')
    def _get(self, query, language):
        link = self.query.substitute(query=query, lang=language)
        if self.proxies:
            proxy = choice(self.proxies)
            ip_and_port = proxy[0]
            protocol = proxy[1]
            proxies = {protocol: ip_and_port}
            requests.get(link, proxies=proxies)
        return requests.get(link)
    def body(self, query, language):
        pass
    def links(self, query, language):
        pass
 def main():
    pass
 if __name__ == '__main__':
    main()
--- a/full_scrapper.py
+++ b/full_scrapper.py
@ -0,0 +1,33 @@
 import dill
 from google import search
 def check(parish):
    if parish.url in search(query, lang='pl', stop=10, pause=3.0):
        return true
 def find_url(parish):
    pass
 def stem_url(url):
 def main():
    parishes = []
    with open('./parishes.dill', 'rb') as f:
        parishes = dill.load(f)
    for parish in parishes:
        if parish.url:
            check(parish)
        else:
            find_url(parish)
    import ipdb
    ipdb.set_trace()
 if __name__ == "__main__":
    main()
--- a/proxy.py
+++ b/proxy.py
@ -0,0 +1,30 @@
 from selenium import webdriver
 import re
 class Proxy():
    def __init__(self, proxies = None):
        "docstring"
        self.proxies = [] if proxies is None else proxies
    def download(self):
        driver = webdriver.Chrome()
        driver.maximize_window()
        driver.get('http://www.gatherproxy.com/proxylist/anonymity/?t=elite')
        full_list_button = driver.find_element_by_xpath('//input[@type="submit" and @value="Show Full List"]')
        full_list_button.click()
        print(driver.page_source)
        for match in re.finditer('<a href="#(.*?)" class="inactive" onclick="gp.pageClick', driver.page_source):
            pass
        pages_nr = int(match.group(1))
        for i in range(2, pages_nr+1):
            driver.execute_script('gp.pageClick(' + str(i) + ')')
            print(i)
    def _get_proxies(self, html):
        for match in re.findall("<td><script>document.write\('(.*?)'[\w\W]*?<td><script>document.write\(gp.dep\('(.*?)'", html):
            proxy = (match[0], str(int(match[1],16)))
            self.proxies.append(proxy)
 if __name__ == '__main__':
    p = Proxy()
    p.download()
--- a/3
+++ b/3
@ -0,0 +1,3 @@
 requests
 dill
 dryscrape
--- a/requirements.in
+++ b/requirements.in
@ -1,2 +1,3 @@
 requests
 dill
 dryscrape
--- a/requirements.txt
+++ b/requirements.txt
@ -5,4 +5,8 @@
 #    pip-compile --output-file requirements.txt requirements.in
 #
 dill==0.2.6
 dryscrape==1.0
 lxml==3.8.0               # via dryscrape
 requests==2.13.0
 webkit-server==1.0        # via dryscrape
 xvfbwrapper==0.2.9        # via dryscrape