Параллельная выборка URL в Go

Одним из наиболее интересных и новых аспектов Go является поддержка параллельного программирования. Это очень большая тема, которую мы рассмотрим несколько позднее, а сейчас мы просто попробуем на вкус основные механизмы параллельности Go — go-подпрограммы (горутины) и каналы.

Наша новая программа называется fetchall, и она точно так же выполняет выборку содержимого URL, как и приложение fetch, но делает это по многим URL одновременно, так что этот процесс займет не больше времени, чем самая долгая выборка, а не время, составляющее сумму всех времен отдельных выборок. Пока что fetchall игнорирует ответы серверов, но сообщает об их размерах и затраченном на их получение времени:

// Выполняет параллельную выборку URL и сообщает
// о затраченном времени и размере ответа для каждого из них
package main

import (
	"fmt"
	"io"
	"io/ioutil"
	"net/http"
	"os"
	"time"
)

func main() {
	start := time.Now()
	ch := make(chan string)
	for _, url := range os.Args[1:] {
		go fetch(url, ch) // start a goroutine
	}
	for range os.Args[1:] {
		fmt.Println(<-ch) // receive from channel ch
	}
	fmt.Printf("%.2fs elapsed\n", time.Since(start).Seconds())
}

func fetch(url string, ch chan<- string) {
	start := time.Now()
	resp, err := http.Get(url)
	if err != nil {
		ch <- fmt.Sprint(err) // send to channel ch
		return
	}

	nbytes, err := io.Copy(ioutil.Discard, resp.Body)
	resp.Body.Close() // don't leak resources
	if err != nil {
		ch <- fmt.Sprintf("while reading %s: %v", url, err)
		return
	}
	secs := time.Since(start).Seconds()
	ch <- fmt.Sprintf("%.2fs  %7d  %s", secs, nbytes, url)
}

Вот пример работы программы:

$ go build fetchall
$ ./fetchall https://golang.org http://gopl.io https://godoc.org
0.14s 6852 https://godoc.org
0.16s 7261 https://golang.org
0.48s 2475 http://gopl.io
0.48s elapsed

go-подпрограмма представляет собой параллельное выполнение функции и имеет иное, более запоминающееся, название - горутин. Канал является механизмом связи, который позволяет одной go-подпрограмме(горутину) передавать значения определенного типа другой go-подпрограмме(горутину). Функция main выполняется в горутине, а инструкция go создает дополнительные go-подпрограммы.

Как это работает

Функция main создает канал строк с помощью make. Для каждого аргумента командной строки инструкция go в первом цикле по диапазону запускает новую go-подпрограмму, которую fetch вызывает асинхронно для выборки URL с помощью http.Get. Функция io.Copy считывает тело ответа и игнорирует его, записывая в выходной поток ioutil.Discard. Сору возвращает количество байтов и информацию о происшедших ошибках. При получении каждого результата fetch отправляет итоговую строку в канал ch. Второй цикл по диапазону в функции main получает и выводит эти строки.

Когда одна go-подпрограмма пытается отправить или получить информацию по каналу, она блокируется, пока другая go-подпрограмма пытается выполнить соответствующие операции получения или отправки, и после передачи информации обе go-подпрограммы продолжают работу. В данном примере каждая функция fetch отправляет значение (ch <- expression) в канал ch, и main получает их все (<- ch). То, что весь вывод осуществляется функцией main, гарантирует, что вывод каждой go-подпрограммы(горутина) будет обработан как единое целое, без опасности получить на экране чередование вывода при завершении двух go-подпрограмм(горутин) в один и тот же момент времени.