WebSVN – SmartDukaan – Diff – /trunk/PyDTR/src/dtr/utils/AmazonPriceOnlyScraper.py

-from BeautifulSoup import BeautifulSoup, NavigableString
 from dtr.utils.utils import fetchResponseUsingProxy
 import re
-import sys
+import datetime
+from pyquery import PyQuery
+import traceback
 invalid_tags = ['b', 'i', 'u']
 bestSellers = []
-def strip_tags(html, invalid_tags):
+headers = {
-    soup = BeautifulSoup(html,convertEntities=BeautifulSoup.HTML_ENTITIES)
+            'User-Agent':'Mozilla/5.0 (Linux; Android 4.3; Nexus 7 Build/JSS15Q) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/29.0.1547.72 Safari/537.36',
-    for tag in soup.findAll(True):
-        if tag.name in invalid_tags:
-            s = ""
-            for c in tag.contents:
+            'Accept' : 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
-                if not isinstance(c, NavigableString):
+            'Accept-Language' : 'en-US,en;q=0.8',
-                    c = strip_tags(unicode(c), invalid_tags)
+            'Accept-Charset' : 'ISO-8859-1,utf-8;q=0.7,*;q=0.3',
-                s += unicode(c)
+            'Connection':'keep-alive',
-            tag.replaceWith(s)
+            'Accept-Encoding' : 'gzip,deflate,sdch'
-    return soup
+        }
 class AmazonScraper:
     def __init__(self, livePricing=None):
         self.count_trials = 0
         self.livePricing = livePricing
     def read(self, url):
         response_data = ""
         try:
-            response_data = fetchResponseUsingProxy(url,livePricing=self.livePricing)
+            response_data = fetchResponseUsingProxy(url,headers=headers,livePricing=self.livePricing,proxy=True)
         except Exception as e:
             print 'ERROR: ', e
             print 'Retrying'
             self.count_trials += 1
                 return self.read(url)
         self.response_data=response_data
         if "Server Busy" in self.response_data:
-            print "Captcha page, lets try again."
             self.count_trials += 1
             return self.read(url)
         return self.createData()
     def createData(self):
-        self.soup = strip_tags(self.response_data,invalid_tags)
-        self.response_data =None
+        try:
-        return self.scrape(self.soup)
+            pq = PyQuery(self.response_data)
-    def scrape(self,soup):
-        sellerData = soup.findAll("div" , {"class" : "a-row a-spacing-mini olpOffer"})
-        for data in sellerData:
+            tag = pq('div.olpOffer')
-            print "sellerData****"
+            infoDiv =  pq(tag[0])
-            price = data.find('span', attrs={'class' : re.compile('.*olpOfferPrice*')}).find('span').text
-            print "Unit cost= ",float(price.replace("Rs.","").replace(",",""))
+            price = infoDiv('span.olpOfferPrice')
-            unitCost = float(price.replace("Rs.","").replace(",",""))
+            unitCost = float(price.text().replace("Rs.","").replace(",",""))
-            shippingCost = data.find('p', attrs={'class' : re.compile('.*olpShippingInfo*')}).find('span').text
-            if "FREE" in shippingCost:
-                print "shippingCost=0"
+            shipping = infoDiv('span.olpShippingPrice')
-                shippingCost = 0
-            else:
-                try:
-                    print "shippingCost= ",float(shippingCost.replace("+Rs.","").replace("Delivery","").replace(",",""))
-                    shippingCost = float(shippingCost.replace("+Rs.","").replace("Delivery","").replace(",",""))
-                except:
-                    shippingCost = 0.0
             try:
-                return (unitCost + shippingCost)
+                shippingCost = float(shipping.text().replace("Rs.","").replace(",",""))
             except:
-                return  unitCost
+                shippingCost = 0
+            return unitCost + shippingCost
+        except:
+            return 0.0
 if __name__ == '__main__':
+    print datetime.datetime.now()
     scraper = AmazonScraper(True)
-    print scraper.read('http://www.amazon.in/gp/offer-listing/B00R659KZ8')
     print scraper.read('http://www.amazon.in/gp/aw/ol/B00UTKPKHY')
+    print datetime.datetime.now()

Subversion Repositories SmartDukaan

(root)/trunk/PyDTR/src/dtr/utils/AmazonPriceOnlyScraper.py – Rev 15265 → 15950