воскресенье, 12 ноября 2017 г.

Python: анализ данных

Многие и многие тысячи публикаций по языку Python описывают его использование для WEB-проектов, бэкенд таких проектов. Собственно, и большинство публикуемых работодателями вакансий (а спрос на Python высок) относятся именно к этой категории.

Ещё некоторая значительная часть публикаций и обсуждений, проектов на Python - посвящены написанию системных утилит и инструментов ... чаще это касается операционной системы Linux, да и других UNIX/POSIX систем.

Первая из этих областей меня совершенно "не греет", не интересует от слова "вообще". Вторая - относительно понятна и хорошо описана. Меня же интересуют огромные, на сегодня, возможности инфраструктуры, возникшей вокруг языка Python, применительно к такой области как анализ данных: интерполяция, моделирование, прогнозирование, ... оптимизация функций общего вида (нелинейных) от многих переменных, ортогональные преобразования цифровых последовательностей (таких как быстрое преобразование Фурье, Уолша, или вэёвлет-разложения)...

Такая вот мощь именно Python в областях, в которых традиционно многие годы преуспевали специализированные инструменты, такие как MathCad и MathLab, обеспечивается не столько самим Python, сколько теми пакетами-библиотеками, которыми обросла инфраструктура Python за последние 5-7 лет (всё это достаточно свежие вещи). Но объясняется такое число и разнообразие этих инструментов, несомненно, именно наличием структур данных высокого уровня в языке Python: списки, кортежи, словари, последовательности, отображения и т.д.

P.S. Есть ещё великое множество задач, принадлежащих к этому классу. Их часто в обсуждениях и публикациях относят к области машинного обучения. Но машинное обучение в этом контексте - это, скорее, дань истерической моде, сложившейся в мире к таким вещам как машинное обучение, бигдата и подобным модным вещам.

Я начинаю, в силу определённых обязательств, некоторые работы по использованию Python именно в области анализа данных. И, естественно, анализ данных тут же требует их отображения, что тоже отменно именно в Python. Свои опыты в этом направлении я буду фиксировать в нескольких темах форума - возможно это кому-то пригодится и подскажет очень быстрый путь обработки данных, обладающий чрезвычайно низкой трудоёмкостью для достижения результатов. Вот эти темы:

Python анализ данных
Python: NumPy

Сюда, в текст блога, я не вношу непосредственно эти обсуждения, просто из-за их огромной объёмности.

P.P.S. Обратите внимание! Это идеальные техники для обработки и оформления экспериментальных данных для ваших дипломных или диссертационных работ. 😆