MINE — Поиск закономерностей в больших данных


Доступен новый набор статистических инструментов под названием MINE, который помогает исследователям находить скрытые закономерности в огромных наборах данных.

Новый набор статистических инструментов под названием MINE был разработан исследователями из Института Броуда и Гарвардского университета для более эффективной работы с большими наборами данных. В статье в журнале Science на этой неделе (который находится за платным доступом) исследователи говорят, что инструмент анализирует данные так, как не может никакая другая программа, что является довольно смелым заявлением, но поскольку они сделали инструмент доступным для вы должны попробовать как скачать, они должны быть уверены.

Анализ может выявить несколько шаблонов, скрытых в информации. Примеры наборов данных включают данные о здоровье со всего мира, статистику, собранную за сезон бейсбольных матчей высшей лиги, и данные об изменении бактериального ландшафта кишечника.

Проблема, которую пытаются решить исследователи, заключается в том, что действительно большие наборы данных очень трудно анализировать. Программное обеспечение существует для быстрого поиска наборов данных, если вы знаете, что ищете, но если исследователь хочет определить, какие скрытые закономерности существуют, существующее программное обеспечение не идеально.

«Есть огромные наборы данных, которые мы хотим изучить, и внутри них может быть много взаимосвязей, которые мы хотим понять»,

сказал ассоциированный член Broad Institute Пардис Сабети, старший автор статьи и доцент Центра системной биологии Гарвардского университета.

«Человеческий глаз — лучший способ найти эти отношения, но эти наборы данных настолько обширны, что мы не можем этого сделать. Этот инструментарий дает нам способ анализа данных для поиска взаимосвязей».

Преимущество MINE (Максимальное непараметрическое исследование на основе информации) состоит в том, что он может обнаруживать широкий спектр закономерностей и характеризовать их в соответствии с рядом различных параметров, предоставляя оценки и сравнения для различных видов возможных взаимосвязей.

По словам Дэвида Решефа, одного из ведущих авторов статьи «Обнаружение новых ассоциаций в больших наборах данных»:

«Стандартные методы рассматривают один паттерн как сигнал, а другие как шум».

Далее он объяснил, что потенциально может быть множество различных типов отношений в данном наборе данных, и что MINE ищет любой тип четкой структуры в данных, пытаясь найти их все и обработать все потенциальные данные. шаблоны одинаково, заключая:

«Эта способность справедливого поиска шаблонов предлагает огромный исследовательский потенциал с точки зрения поиска шаблонов без необходимости заранее знать, что искать».

Исследователи протестировали свой аналитический инструментарий на нескольких больших наборах данных, в том числе на одном, состоящем из данных о триллионах микроорганизмов, обитающих в кишечнике. Исследовательская группа использовала MINE для проведения более 22 миллионов сравнений и сузила несколько сотен интересных паттернов, которые ранее не наблюдались.

Инструмент работает так, чтобы генерировать гипотезы для изучения исследователями. Если у вас есть набор данных с несколькими измерениями для изучения, один из способов состоит в том, чтобы вычислить некоторую меру зависимости для каждой пары переменных, ранжировать пары по их баллам и исследовать пары с наивысшими баллами.

Статистика, используемая для измерения зависимости, должна быть универсальной и справедливой. Общность означает, что статистика должна отражать широкий спектр интересных ассоциаций, не ограничиваясь конкретными типами функций (такими как линейные, экспоненциальные или периодические) или даже всеми функциональными отношениями. Справедливость означает, что статистика должна давать одинаковые оценки одинаково шумным отношениям разных типов.

Например, если есть линейная связь и синусоидальная зависимость, дающие одинаковые значения друг другу, они должны получить одинаковый балл.

Исследователи измерили максимальный информационный коэффициент (MIC), меру зависимости с двумя переменными, разработанную с учетом принципов общности и справедливости. Они говорят, что MIC очень близок к достижению обеих целей одновременно и что в этом отношении он значительно превосходит конкурирующие методы.

Вы можете попробовать это программное обеспечение самостоятельно, загрузив его (и образцы наборов данных) здесь: http://www.exploredata.net/Downloads.

Чтобы быть в курсе новых статей на I Programmer, подпишитесь на RSS-канал, подпишитесь на нас в Google+, Twitter, Linkedin или Facebook или подпишитесь на нашу еженедельную новостную рассылку.


Добавить комментарий