Анализ данных на Python - это одно из направлений Data Mining, связанное с web-программированием, написанием кодов и автоматизированной обработкой данных с помощью программных средств языка Python для их интеллектуального анализа.
Подробнее об анализе данных на Python будет рассказано в представленной статье.
Анализ данных на Python - основные возможности
Для обработки данных, составления по ее результатам отчетов и построения прогностических моделей используются различные встроенные библиотеки языка программирования Python. Они делятся на:
- основные. К ним относятся Jupyter (представляющая собой интерактивную оболочку для написания скриптов на Python), Pandas, предоставляющая средства для обработки неупорядоченной, неструктурированной и неявной информации, NumPy, работающая с векторными и матричными структурами, SciPy, выполняющая задачи линейной алгебры, Matplotlib, используемая для построения двухмерных визуальных систем;
- применяемые для работы с данными. Эта группа представлена библиотеками Scikit-learn (которая задействуется в машинном обучении, кластерном и регрессионном анализе и классификации данных), Theano (используемой для вычисления в больших информационных массивах), TensorFlow (с ее помощью можно настроить, тренировать и применять различные формы искусственных нейронных сетей);
- содержащие инструменты интеллектуального анализа и обработки естественного языка. В эту группу входят Scrapy (служит для создания ботов, сканирующих web-страницы и собирающих структурированную информацию, а также извлекающих данные из API), NLTK (применяемая для обработки естественного языка, то есть содержащая инструменты, размечающие тексты, определяющие именованные объекты, отображающие синтаксис), Pattern, сочетающая функции Scrapy и NLTK;
- применяемые для визуализации данных. В данную группу включаются Seaborn - библиотека для вывода специфичных визуализаций, Bokeh - набор инструментов для построения интерактивных и изменяемых графиков, Basemap - библиотека для оформления карт (в том числе интерактивных), NetworkX - библиотека для создания и анализа графов и сетевых структур.
С помощью этих библиотек можно работать:
- с данными из разных источников;
- со сводными таблицами и однотипными файлами;
- с файлами различных форматов;
- с базами данных;
- с текстовой информацией;
- с API-сервисами «ЯндексМетрика», Google Analytics и «ВКонтакте» и других социальных сетей.
Обучиться анализу данных на языке Python все желающие смогут, пройдя курс профессиональной переподготовки по программе «Инструментальные средства бизнес-аналитики», которую проводит ВШБИ НИУ ВШЭ. Записаться на обучение по данному курсу можно на нашем сайте.
← Назад к списку