Урок 25: Введение в анализ данных с pandas

Анализ данных с pandas в Python

Краткое введение

pandas — это мощная библиотека для анализа и обработки данных в Python, предоставляющая структуры данных DataFrame и Series для манипулирования табличными данными с множеством встроенных функций для анализа.

Теоретическая часть

DataFrame и Series

DataFrame — это двумерная структура данных в pandas, которая представляет собой таблицу с лейблами для строк и столбцов. Series — это одномерная структура, каждая серия может быть столбцом DataFrame.

Основные операции

С помощью pandas можно выполнять различные операции для анализа данных, включая фильтрацию, группировку, сортировку, а также агрегацию данных. Библиотека также предоставляет функции для чтения и записи данных в различные форматы.

Примеры кода

# Пример анализа данных с pandas
import pandas as pd

# Создание DataFrame
data = {'Name': ['John', 'Anna', 'Peter', 'Linda'],
 'Age': [28, 34, 29, 32],
 'City': ['New York', 'Paris', 'Berlin', 'London']}
df = pd.DataFrame(data)

# Фильтрация данных
young_people = df[df['Age'] < 30]

# Группировка и агрегация
average_age_per_city = df.groupby('City')['Age'].mean()

Практические задания

1. Загрузите набор данных о пассажирах Титаника и выполните анализ выживаемости в зависимости от различных факторов, таких как класс, пол и возраст.
2. Используйте набор данных о ресторанах и их рейтингах, чтобы найти средний рейтинг ресторанов в каждом городе.

Решение задания

# Анализ данных о пассажирах Титаника
titanic_data = pd.read_csv('titanic.csv')
survival_rate = titanic_data.groupby('Pclass')['Survived'].mean()

# Анализ рейтинга ресторанов
restaurants_data = pd.read_csv('restaurants.csv')
average_rating = restaurants_data.groupby('City')['Rating'].mean()

© 2024 realschule.ru

Категория: Python с нуля | Добавил: Admin (07.03.2024)
Просмотров: 145 | Рейтинг: 1.0/1
Всего комментариев: 0
Имя *:
Email *:
Код *: