Почтовый индекс для генома — G-SQueeZ


Алгоритм G-SQueeZ — это новый способ сжатия данных генома, который может сэкономить много денег, но заслуживает ли он патента?

Алгоритм сжатия Zip настолько распространен, что даже глупые пользователи понимают глагол «zip». Это все, на что может надеяться любой изобретатель алгоритмов. Теперь у нас есть алгоритм сжатия G-SQueeZ, направленный на то, чтобы данные геномного секвенирования занимали намного меньше байтов.

Утверждается, что новый алгоритм может обеспечить степень сжатия 80%, что совсем не удивительно, учитывая высокую степень регулярности и, следовательно, избыточности данных. Что делает метод сжатия настолько подходящим для данных, так это то, что он сохраняет порядок и позволяет получить доступ к частям данных без распаковки всего файла.

Новый алгоритм представляет собой прямое применение кодирования Хаффмана — фундаментального алгоритма теории информации. Стандартное кодирование Хаффмана вычисляется из каждой базы плюс дополнительных данных — чем выше частота появления базовых данных, тем короче код, используемый для их представления. Это чистая процедура кодирования Хаффмана.

Кодируемые данные сначала сканируются для создания таблицы частот, а затем дерева кодирования Хаффмана. Затем данные сканируются второй раз, и данные кодируются с использованием кода Хаффмана. Результирующий код затем записывается вместе с заголовком, дающим словарь кода Хаффмана. Большинству программистов это может показаться здравым смыслом применения существующего алгоритма.

Если вы ищете новую идею, которая отличает этот алгоритм от других, вы, вероятно, не найдете ее. Это стоящая реализация стандартного алгоритма Хаффмана, но это не новая идея и не новый алгоритм.

Если вы хотите использовать G-SQueeZ для академического / некоммерческого использования, тогда хорошо, у вас даже может быть исходный код, но если вы хотите изучить или использовать его в компании, которая зарабатывает деньги, независимо от ее размера, тогда за привилегию нужно платить. Что немного странно, учитывая, что речь идет о компании TGen, которая утверждает, что является некоммерческим институтом биомедицинских исследований.

Создатели также подают заявку на патент на алгоритм. Если они получат патент, то, предположительно, он будет охватывать любой метод сжатия, который является реализацией кода Хаффмана, а это, возможно, и все такие методы.

Что еще хуже, если вы хотите прочитать подробности алгоритма, вам придется заплатить, как правило, 25 долларов за дневной доступ к рассматриваемому журналу — биоинформатике.

Ссылка на статью в журнале Bioinformatics Journal

Конечно, если у вас есть академическая принадлежность, велика вероятность, что вам будет разрешен доступ к статье «бесплатно», что означает, что учреждение платит за вас. Программисты часто не имеют академической принадлежности, а сочетание патентов и академических ограничений деспотично во всех смыслах.

И последнее, однако, должно быть — что, если бы Хаффман запатентовал свой гораздо более революционный и фундаментальный алгоритм?


Добавить комментарий