Find Jobs
Hire Freelancers

Write a Python MapReduce job to find inbound links to particular domain based on Common Crawl Data -- 2

$10-30 CAD

In Bearbeitung
Veröffentlicht vor etwa 8 Jahren

$10-30 CAD

Bezahlt bei Lieferung
Hi, I'm looking for a developer/data scientist to write me a Map Reduce job in Python which will let me enter either 1 or many domains and crawl a Common Crawl public dataset found on Amazon Web Services. The job should return pages that link to those particular domains (ie. look for inbound links). The map function should find which pages link to which domain and the reduce function should summarize the count of links which were discovered I need the map reduce job to crawl over the entire Common Crawl archive and save the results in JSON output to S3. Perhaps, one file for each domain entered - and if a file is too large, split into multiple files. I should also be able to enter which Common Crawl archive I want to crawl on (there are different archives of snapshots taken on different dates)
Projekt-ID: 10063889

Über das Projekt

2 Vorschläge
Remote Projekt
Aktiv vor 8 Jahren

Möchten Sie etwas Geld verdienen?

Vorteile einer Ausschreibung auf Freelancer

Legen Sie Ihr Budget und Ihren Zeitrahmen fest
Für Ihre Arbeit bezahlt werden
Skizzieren Sie Ihren Vorschlag
Sie können sich kostenlos anmelden und auf Aufträge bieten
Vergeben an:
Avatar des Nutzers
$25 CAD in 1 Tag
5,0 (1 Bewertung)
0,9
0,9

Über den Kunden

Flagge von CANADA
Canada
0,0
0
Zahlungsmethode verifiziert
Mitglied seit März 22, 2016

Kundenüberprüfung

Danke! Wir haben Ihnen per E-Mail einen Link geschickt, über den Sie Ihr kostenloses Guthaben anfordern können.
Beim Senden Ihrer E-Mail ist ein Fehler aufgetreten. Bitte versuchen Sie es erneut.
Registrierte Benutzer Veröffentlichte Jobs
Freelancer ® is a registered Trademark of Freelancer Technology Pty Limited (ACN 142 189 759)
Copyright © 2024 Freelancer Technology Pty Limited (ACN 142 189 759)
Vorschau wird geladen
Erlaubnis zur Geolokalisierung erteilt.
Ihre Anmeldesitzung ist abgelaufen und Sie wurden abgemeldet. Bitte melden Sie sich erneut an.