Este projeto tem como objetivo realizar uma análise exploratória de dados (EDA) de transações comerciais fictícias. O conjunto de dados contém informações sobre transações, incluindo o número da fatura, código do item, descrição do item, quantidade comprada, data da fatura, preço unitário, ID do cliente, país e preço total.
A análise envolve o tratamento de dados, exploração de padrões e a geração de insights úteis para entender o comportamento de compra dos clientes.
Inicialmente, são importadas as bibliotecas necessárias para manipulação e análise dos dados.
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
Os dados são carregados de um arquivo CSV utilizando o pandas
.
df = pd.read_csv('Data.csv', delimiter=',')
df.head()
Realiza-se a remoção de espaços em branco das colunas e substituição de valores vazios por NaN
.
df.columns = [col.strip() for col in df.columns]
df = df.applymap(lambda x: x.strip() if isinstance(x, str) else x)
df = df.applymap(lambda x: np.nan if x == '' else x)
A função describe()
é utilizada para obter estatísticas descritivas das colunas numéricas do dataset.
df.describe()
Foi utilizadas bibliotecas como matplotlib
e seaborn
para gerar gráficos e explorar padrões e tendências dos dados, como a distribuição de compras por cliente, por país, entre outros.
Identifiquei e tratei valores nulos por meio de técnicas como a substituição por médias ou a exclusão de registros incompletos, conforme apropriado.
Detectaei e tratei valores atípicos que poderiam afetar a análise, garantindo uma interpretação mais precisa dos dados.
Criei novas colunas a partir dos dados existentes, como o TotalPrice
, calculado pela multiplicação da Quantity
pelo UnitPrice
.
df['TotalPrice'] = df['Quantity'] * df['UnitPrice']
A análise resulta em insights sobre o comportamento de compra, como a identificação de clientes mais valiosos, os itens mais comprados, padrões de compra por país, entre outros. Além disso, são feitas recomendações para ações futuras, como melhorar o atendimento aos clientes mais frequentes.
- Python 3.x
- Bibliotecas necessárias:
-
numpy
-
pandas
-
matplotlib
-
seaborn
Você pode instalar as dependências necessárias com o seguinte comando:pip install numpy pandas matplotlib seaborn
-
- Clone o repositório:
git clone https://github.com/Ogarit/Analise_Exploratoria_RFM_Transacoes_Comerciais.git
- Navegue até o diretório do projeto:
cd Analise_Exploratoria_RFM_Transacoes_Comerciais
- Coloque o arquivo de dados
Data.csv
no mesmo diretório que o notebook. - Abra o Jupyter Notebook e execute todas as células sequencialmente.
Este notebook é flexível e pode ser modificado para atender a necessidades específicas, como alteração de parâmetros de análise ou adição de novas seções.
O conjunto de dados contém as seguintes colunas:
- InvoiceNo: Número da fatura (identificador único para cada transação).
- StockCode: Código do item (identificador do produto).
- Description: Descrição do item.
- Quantity: Quantidade comprada do item.
- InvoiceDate: Data da fatura (momento da transação).
- UnitPrice: Preço unitário do item.
- CustomerID: ID do cliente que realizou a compra.
- Country: País onde o cliente está localizado.
- TotalPrice: Preço total (calculado como
Quantity * UnitPrice
).