CheckCell Обнаруживает Ошибки В Электронных Таблицах


Был выпущен бесплатный плагин Excel, который использует новый подход к автоматическому поиску ошибок данных в электронных таблицах. Вместо того чтобы искать ошибки в программах и формулах, CheckCell приступает к отладке базовых данных.

Инструмент под названием CheckCell создан Дэниелом Бароуи и Димитром Гочевым, докторантами по информатике в Университете Массачусетса в Амхерсте. Он был запущен на международной конференции по разработке языков программирования в этом году, OOPSLA.

В нем рассматривается проблема, связанная с тем, что ошибки в данных электронных таблиц могут быть следствием истории, о которой мы сообщали в апреле 2013 года, см. ” Виноват ли Excel в нашей экономической боли?”.

На своей сессии конференции Дэниел Бароуи рассказал делегатам:

“Рассмотрим случай с работой, написанной гарвардскими экономистами Кармен Рейнхарт и Кеннетом Рогоффом пару лет назад. Этот документ был влиятельным, придавая доверие правительственным мерам жесткой экономии в Европе и Соединенных Штатах. Но в 2013 году экономист UMass Amherst Томас Херндон и его коллеги обнаружили, что, просматривая данные вручную, методологические ошибки подорвали аргумент Рейнхарта и Рогоффа. В частности, Рейнхарт и Рогофф преувеличили влияние ключевых значений данных в электронной таблице.”

Группа CheckCell под руководством профессора Эмери Бергера. задался вопросом, может ли быть разработано программное обеспечение для автоматического поиска таких ошибок, и успешно разработал подход, который обнаружил ряд таких же ошибок, обнаруженных Херндоном.

В статье, представленной в OOPSLA, этот подход называется отладкой данных, которая сочетает в себе анализ программ и статистический анализ для автоматического поиска потенциальных ошибок данных путем поиска данных, которые оказывают непропорциональное влияние на вычисления. 

Выражаясь более неформально, Бароуи объясняет:

“В принципе, CheckCell идентифицирует точки данных, которые оказывают большое влияние на конечный результат, даже если воздействие очень тонкое и его трудно обнаружить. CheckCell немедленно помечает точки данных, которые очень подозрительны, те, которые заслуживают второго взгляда. Это все равно, что иметь помощника, который говорит: “Обратите внимание на эти клетки, они действительно важны”.”

Эта техника использует то, что Бергер называет “порогом необычности”.” CheckCell отмечает точки данных с высокой степенью воздействия красным цветом и просит дизайнера электронных таблиц проверить их. Если они действительно верны, они становятся зелеными и не будут отмечены в последующих анализах.

Приведенный пример включает в себя транспонирование цифр в точке данных, поэтому, когда у учителя есть ученик “А”, который, как ожидается, получит 94 балла за тест, а в таблице указано, что ученик получил 49 баллов, CheckCell отметит это.  Аналогичный пример используется в статье: 

Разве это не просто проверка диапазона, которую мы всегда советовали пользователям встроить в электронные таблицы? 

Я думаю, что будет справедливо сказать, что это ценное расширение идеи, которая не является такой грубозернистой, как ручные проверки, и, работая с неожиданным результатом для данных, приносит желанную степень автоматизации проблемы.

Бергер говорит, что в будущем команда планирует расширить использование CheckCell на крупномасштабные наборы данных, где трудно найти ошибки, оказывающие большое влияние. Уже показав, что CheckCell обнаружил бы некоторые недостатки в данных Рейнхарта/Рогоффа, это кажется стоящим делом. 

Вы можете установить CheckCell 1.0.2 для Excel 10 и более поздних версий через GitHub, и его исходный код также доступен. gCheckCell, версия для электронной таблицы Google, также находится на GitHub.


Добавить комментарий