Конкурс программистов стоимостью 6000 долларов для решения проблемы «больших данных» в вычислительной биологии дал решение, которое было в 970 раз быстрее, чем существующие решения.
Эта впечатляющая история успеха рассказывает о том, как TopCoder, сообщество, насчитывающее более 450 000 членов, представляющих «алгоритмистов», разработчиков программного обеспечения и творческих художников из более чем 200 стран, разработало ряд инновационных подходов к реальной проблеме анализа данных последовательности из гены и генные мутации, которые создают антитела и рецепторы Т-клеток.
Задача двухнедельного конкурса с тремя еженедельными призами в размере 500 долларов заключалась в разработке алгоритма прогнозирования, который превзошел бы как стандартный подход NIH (MegaBLAST), так и альтернативный индивидуальный алгоритм, разработанный Рами Арнаут из Медицинского центра диаконис Бет Исраэль.
Ставя задачу, исследователи во главе с Евой Гинан, адъюнкт-профессором радиационной онкологии в Институте рака Дана-Фарбер, переосмыслили проблему, сделав ее доступной для людей, не обученных вычислительной биологии, с точки зрения нахождения расстояния редактирования между запросами. ДНК и исходная цепочка ДНК.
(щелкните плакат, чтобы просмотреть его в новом окне) Источник: TopCoder.com
В итоге, как показано на плакате, сообщество TopCoder представило 654 заявки и предложило 89 различных подходов к решению проблемы. 16 решений были улучшением по сравнению с MegaBLAST, одно более чем в 970 раз быстрее, чем он или алгоритм HMS.
Более подробная информация представлена в пресс-релизе TopCoder:
В конкурсе приняли участие 733 участника, из которых 122 (17%) представили программный код. В эту группу подателей, отобранных из 69 стран, вошли примерно половина (44%) профессионалов, а остальные — студенты различных уровней. Ни один из них не был академическим или промышленным вычислительным биологом, и только пятеро заявили, что занимаются НИОКР или науками о жизни в каком-либо качестве. 122 члена TopCoder представили 654 заявки, в которых использовалось 89 различных подходов к проблеме. В совокупности участники в среднем отправили по 5,4 заявки каждый. Участники сообщили, что на разработку решений потратили в среднем 22 часа, в общей сложности 2 684 часа времени на разработку. Шестнадцать из представленных материалов превзошли точность (77%) традиционно разработанного индивидуального решения, а 30 превзошли эталонный тест NIH MegaBLAST по точности (72%). В общей сложности восемь представленных материалов получили оценку точности 80%, что очень близко к теоретическому максимуму для набора данных.
В выпуск «Nature Biotechnology» от 7 февраля 2013 г. включена статья группы исследователей, и в ее названии провозглашается вывод: «Конкурсы на основе призов могут обеспечить решение проблем вычислительной биологии».