Машина переписи Hollerith — веха в области больших данных


16 августа 1890 года Бюро переписи населения США объявило, что население США составляет 62 662 250 человек. Это был первый случай, когда оборудование было использовано для автоматизации процесса, и использование Hollerith Machines позволило сэкономить 5 миллионов долларов и более.

Перепись в США началась в августе 1790 г. На сбор данных ушло девять месяцев, а подсчет занял около года. Каждые десять лет после этого в США повторяли перепись, но численность населения росла на 35% в год, и к 1860 году насчитывалось более 31 миллиона человек.

С годами перепись также усложнилась — настолько, что в 1850 году конгресс принял закон, ограничивающий ее не более чем 100 вопросами! Стало казаться, что обработка данных может занять более 10 лет и что хорошего в статистике 10-летней давности. Современному правительству нужна последняя информация для планирования услуг и прогнозирования налогообложения.

Герман Холлерит

(29 февраля 1848-17 ноября 1929)

Совершенно случайно Герман Холлерит, окончивший Колумбийскую горную школу по специальности горный инженер, стал человеком, который произвел революцию в способах кодирования и подсчета данных переписи. Он встречался с Кейт Шерман Биллингс, отец которой отвечал за большую часть переписи — статистику естественного движения населения. Холлерит пыталась произвести впечатление на Кейт, пытаясь купить все билеты в лотерею на вечеринке, на которой они оба были. К сожалению, он пропустил только один билет — выигрышный! В буфете он выбрал куриный салат, и это дало Кейт возможность пригласить его домой, где ее мама приготовила отличный куриный салат!

В доме Биллингсов Холлерит глубоко разговорилась с отцом Кейт о проблеме переписи. Биллингс был уверен, что можно создать механический метод счета, но он был врачом, а не инженером. Позже Холлерит сообщил об их разговоре:

«Он сказал мне, что должна быть машина для выполнения чисто механической работы по составлению таблиц статистики населения … Он подумал об использовании карточек с описанием человека, показанным зазубринами на краю … После изучения задачи я вернулся к доктору Биллингсу и сказал, что я могу найти решение, и спросил, пойдет ли он со мной. Доктор сказал, что его не интересует больше, чем видеть какое-то решение ».

Холлерит всегда щедро приписывал Биллингсу основную идею использования перфокарт и даже предлагал «Куриный салат» в виде двух слов, объясняющих, почему он изобрел автоматическую обработку данных!

В свободное время Холлерит работал над машиной для переписи и запатентовал ее в 1884 году. Он принес в бюро переписи частичную машину, но, прежде чем они вложили деньги в проект, они хотели создать рабочую демонстрацию, поэтому Холлерит занял 2500 долларов у своего брата и стал первым. первый из «гаражных» стартапов в истории вычислительной техники!

Он рассмотрел всевозможные способы записи данных, чтобы их можно было обрабатывать, включая бумажную ленту. От этой идеи он отказался, потому что понял, что формат ленты затрудняет доступ к отдельным записям. Холлерит вспоминал, как видел, как сборщик железнодорожных билетов использовал «штампованную фотографию» билета, который был перфорирован, чтобы указать, как выглядел пассажир — светлый, темные волосы, большой нос и т. Д. — и решил, что лучше всего использовать перфокарты.

Сначала его перфокарты имели дыры только по краю, потому что его удар не мог достичь центра, но ему не потребовалось много времени, чтобы решить эту проблему. Он заново изобрел перфокарту Бэббиджа и жаккардовый ткацкий станок, но неясно, знал ли он об этих более ранних попытках. Поскольку его брат занимался шелковым бизнесом, возможно, он слышал от него о ткацких станках с карточным управлением.

Ранняя карта Холлерита

Холлерит искал способы доказать, что его машины работают, и поэтому он предложил автоматизировать медицинские записи Балтимора. Холлерит проделал большую часть перфорации карт сам, что немаловажно, используя ручную перфорацию по 1000 карт в день, каждая с десятью или более отверстиями. Каждая карта содержала данные по одному пациенту, и после того, как его машины для составления таблиц и сортировки позволили получить ответы на вопросы, которые раньше казались невозможными.

Следующим его проектом была автоматизация медицинских записей, хранимых военным ведомством. Они также были готовы арендовать его машины, но в этом случае проблема была более сложной и требовалось хранить больше данных на каждой карте. Вместо того, чтобы просто увеличивать размер карты, Холлерит решил позволить комбинациям отверстий что-то значить. Это, конечно, было началом использования кодирования, которое в конечном итоге привело к двоичным кодам и кодам ASCII.

Холлерит не спускал глаз с предстоящей переписи 1890 года. Ему предложили работу в переписи населения, но он отказался. Он хотел продать свои машины, а не участвовать в переписи населения, и принял участие в конкурсе, который был организован между перфокартами Холлерита и двумя конкурирующими системами: одна использовала цветные листки бумаги, а другая — покерные фишки. В тесте использовались данные для 10 000 человек, и машины Холлерита завершили работу чуть более чем за 3 дня. Большая часть времени была потрачена на перфорацию карт, фактическая обработка заняла всего 5 часов — второй самый быстрый метод занял 4,5 дня.

В результате бюро переписи заказало 56 машин по цене 56 000 долларов в год, и перепись 1890 года была завершена в течение года, который можно сравнить с восемью годами, необходимыми для переписи 1880 года.


Добавить комментарий