每天都和时间序列打交道，我总结了这篇文章！-关注-南非商务网

每天都和时间序列打交道，我总结了这篇文章！-关注

来源：程序员客栈时间：2023-06-20 16:02:22

Datawhale干货

作者：戳戳龍，上海交通大学，量化算法工程师

前言

? 平时工作中每天都在和时间序列打交道，对时间序列分析进行研究是有必要的

(资料图片仅供参考)

? 分享和交流一些自己的在时序处理方面的心得，提供一些思路

? 介绍时序的发展情况，以及目前业界常用的方法

? 代码希望能模板化，能直接复制过去使用

时序方法发展

时间序列特征

?series = trend + seasons + dependence+ error

趋势

? 时间序列的趋势分量表示该序列均值的持续的、长期的变化

Df["ma20"] = Df["amt"].rolling(20).mean()

周期性（季节性）季节时序图

def plot_season(Df):    df = Df.copy()    # 计算每周属于哪一年    df["year"] = df["date"].dt.year    # 计算每周为一年当中的第几周    df["week_of_year"] = df["date"].dt.weekofyear    for year in df["year"].unique():        tmp_df = df[df["year"] == year]        plt.plot(tmp_df["week_of_year"], tmp_df["amt"], ".-", label=str(year))    plt.legend()    plt.show()

周期判断

?如果每隔h个单位，ACF值有一个局部高峰，则数据存在以h为单位的周期性

from  statsmodels.graphics.tsaplots import plot_acfplot_acf(Df["amt"], lags=500).show()

自相关性自相关

?自相关函数 autocorrelation function有序的随机变量序列与其自身相比较自相关函数反映了同一序列在不同时序的取值之间的相关性

from statsmodels.graphics.tsaplots import plot_acf_ = plot_acf(Df["amt"], lags=50)

偏自相关

from statsmodels.graphics.tsaplots import plot_pacfplot_pacf(Df["amt"], lags=5)

残差外部变量残差Prophet

?官方文档：https://facebook.github.io/prophet/docs/quick_start.html#python-api

原理模型结构

?模型结构——关于时间的广义线性模型
g(t):trend,用分段线性函数或逻辑增长曲线(logistic)拟合s(t):seasonality,用傅里叶级数拟合。可以叠加多个季节性，如weekly,yearly （s = s1+s2……）h(t):regressor，用线性函数拟合。可以叠加多个外部变量，如节假日、温度、活动（h = h1+h2+……）:模型残差不用拟合以上方程也可以写成乘法形式：乘法形式和加法形式可以相互转换，乘法形式两边取对数就是加法形式

趋势分段线性函数

?线性趋势函数
分段线性趋势函数
超参数，由用户给出分几段参数，根据历史数据拟合k：曲线增长速率m：曲线的截距

逻辑增长曲线

?函数展示：https://www.desmos.com/calculator/8pnqou9ojy?lang=zh-CN

超参数C：渐近线一共分几段参数k：曲线增长速率m：拐点对应时间周期性

?任何周期性函数都可以表示成傅里叶级数

超参数：由用户给定

傅里叶级数的阶数，越大，季节性曲线波动越大，越容易过拟合参数：由历史数据拟合、系数

? 函数展示：(https://www.desmos.com/calculator/5prck2beq1?lang=zh-CN

外部因素

: 模型输入，外部因素在时刻的取值

Z可以是0-1变量（e.g.是否是法定假日，是否是春节，是否有促销）

也可以是连续变量（e.g.产品价格，温度，降雨量)

：线性回归系数

算法流程

1️⃣ 先设定表达式（超参数）

2️⃣ 根据训练集数据求解参数

实践发电耗煤预测

df_train = Df[ (Df["date"]<"2022-01-01") & (Df["date"]>="2018-01-01") ]df_test =  Df[ (Df["date"]>="2022-01-01")]

def FB(data):    df = pd.DataFrame({    "ds": data.date,    "y": data.amt,    })#     df["cap"] = data.amt.values.max()#     df["floor"] = data.amt.values.min()    m = prophet.Prophet(        changepoint_prior_scale=0.05,         daily_seasonality=False,        yearly_seasonality=True, #年周期性        weekly_seasonality=True, #周周期性#         growth="logistic",    )    m.add_seasonality(name="monthly", period=30.5, fourier_order=5, prior_scale=0.1)#月周期性    m.add_country_holidays(country_name="CN")#中国所有的节假日        m.fit(df)    future = m.make_future_dataframe(periods=30, freq="D")#预测时长#     future["cap"] = data.amt.values.max()#     future["floor"] = data.amt.values.min()    forecast = m.predict(future)    fig = m.plot_components(forecast)    fig1 = m.plot(forecast)    a = add_changepoints_to_plot(fig1.gca(), m, forecast)    return forecast,m

forecast,m = FB(df_train)

def FPPredict(data,m):    df = pd.DataFrame({    "ds": data.date,    "y": data.amt,    })    df_predict = m.predict(df)    df["yhat"] = df_predict["yhat"].values    df = df.set_index("ds")    df.plot()    return df

df = FPPredict(df_test.tail(200),m)

申购赎回金额预测

kaggle notebook^[1]

Purchase Redemption Data.zip

import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport prophetfrom prophet.diagnostics import cross_validationfrom prophet.diagnostics import performance_metricsfrom prophet.plot import plot_cross_validation_metricimport warningswarnings.filterwarnings("ignore")

data_user = pd.read_csv("../input/purchase-redemption/Purchase Redemption Data/user_balance_table.csv")data_user["report_date"] = pd.to_datetime(data_user["report_date"], format="%Y%m%d")data_user.head()

data_user_byday = data_user.groupby(["report_date"])["total_purchase_amt","total_redeem_amt"].sum().sort_values(["report_date"]).reset_index()data_user_byday.head()

申购

#定义模型def FB(data: pd.DataFrame):    df = pd.DataFrame({    "ds": data.report_date,    "y": data.total_purchase_amt,    })#     df["cap"] = data.total_purchase_amt.values.max()#     df["floor"] = data.total_purchase_amt.values.min()    m = prophet.Prophet(        changepoint_prior_scale=0.05,         daily_seasonality=False,        yearly_seasonality=True, #年周期性        weekly_seasonality=True, #周周期性#         growth="logistic",    )#     m.add_seasonality(name="monthly", period=30.5, fourier_order=5, prior_scale=0.1)#月周期性    m.add_country_holidays(country_name="CN")#中国所有的节假日        m.fit(df)    future = m.make_future_dataframe(periods=30, freq="D")#预测时长#     future["cap"] = data.total_purchase_amt.values.max()#     future["floor"] = data.total_purchase_amt.values.min()    forecast = m.predict(future)    fig = m.plot_components(forecast)    fig1 = m.plot(forecast)    return forecast,m

result_purchase,purchase_model = FB(data_user_byday.iloc[:-30])

def FPPredict(data,m):    df = pd.DataFrame({    "ds": data.report_date,    "y": data.total_purchase_amt,    })#     df["cap"] = data.total_purchase_amt.values.max()#     df["floor"] = data.total_purchase_amt.values.min()    df_predict = m.predict(df)    df["yhat"] = df_predict["yhat"].values    df = df.set_index("ds")    df.plot()    return df

purchase_df = FPPredict(data_user_byday.iloc[-30:],purchase_model)

赎回

#定义模型def FB(data: pd.DataFrame):    df = pd.DataFrame({    "ds": data.report_date,    "y": data.total_redeem_amt,    })    df["cap"] = data.total_purchase_amt.values.max()    df["floor"] = data.total_purchase_amt.values.min()    m = prophet.Prophet(        changepoint_prior_scale=0.05,         daily_seasonality=False,        yearly_seasonality=True, #年周期性        weekly_seasonality=True, #周周期性        growth="logistic",    )#     m.add_seasonality(name="monthly", period=30.5, fourier_order=5, prior_scale=0.1)#月周期性    m.add_country_holidays(country_name="CN")#中国所有的节假日        m.fit(df)    future = m.make_future_dataframe(periods=30, freq="D")#预测时长    future["cap"] = data.total_purchase_amt.values.max()    future["floor"] = data.total_purchase_amt.values.min()    forecast = m.predict(future)    fig = m.plot_components(forecast)    fig1 = m.plot(forecast)    return forecast

result_redeem = FB(data_user_byday)

Bonus 时间序列特征工程

https://www.heywhale.com/mw/project/63904f5658e3bea6a3e52800

EDA

import sweetviz as svdef eda(df, name, target=None):    sweet_report = sv.analyze(df, target_feat=target)    sweet_report.show_html(f"{name}.html")def eda_compare(df1, df2, name, feature, target):    feature_config = sv.FeatureConfig(force_text=feature, force_cat=feature)    sweet_report = sv.compare(df1, df2, feat_cfg=feature_config, target_feat=target)    sweet_report.show_html(f"{name}_compare.html")

完整版请访问：https://www.wolai.com/stupidccl/5dqha79nnrPMf5xTAs6jUu

参考资料[1]

kaggle notebook: https://www.kaggle.com/code/stupidccl/time-serious-analysis-1/edit/run/107631286

干货学习，点赞三连↓

关键词：

新闻推荐

每天都和时间序列打交道，我总结了这篇文章！-关注

Datawhale干货作者：戳戳龍，上海交通大学，量化算法工程师前言? 平

来源：程序员客栈时间：2023-06-20 16:02:22
千亿基金“难嫁”：20%股权溢价七成，上海银行硬不降价-天天百事通

来源：密探财经“皮之不存，毛将焉附。”当前，实体经济陷入空前困难，

来源：程序员客栈时间：2023-06-20 15:07:42
“2023泰精选美食节”在昆明开启持续至6月30日快资讯

云南信息报讯云上融媒记者李婧6月16日，由泰王国驻昆明总领事馆商务处

来源：程序员客栈时间：2023-06-20 14:57:33
中国A股多家快递公司披露5月业绩均实现收入同比正增长世界视点

中国网是国务院新闻办公室领导，中国外文出版发行事业局管理的国家重点

来源：程序员客栈时间：2023-06-20 14:29:42
以河湖长制促进河湖长治｜贵州4697条河流（湖）共有22755名河湖长

时维六月，气候宜人。行走在南明河畔，一河清水缓缓流淌，两岸植被葱葱

来源：程序员客栈时间：2023-06-20 13:27:09
如何制作围兜花束_女朋友过生日没钱送什么礼物好

婴儿围嘴是送给准妈妈的有用且必要的礼物。但在婴儿送礼会上——每

来源：程序员客栈时间：2023-06-20 12:52:30
海岛大亨游戏视频（qq海岛大亨）

岛大亨游戏视频，qq海岛大亨这个问题很多朋友还不知道，来为大家解答以

来源：程序员客栈时间：2023-06-20 12:15:33
里约中国国际学校举行端午庆祝活动

一些学生和家长在体验包粽子。人民网记者宋亦然摄田敏等人在观看学生们

来源：程序员客栈时间：2023-06-20 11:39:21
多批次抽检不合格？12家企业被约谈

为进一步强化抽检不合格食品生产企业监管，近日，南京市市场监管局召开

来源：程序员客栈时间：2023-06-20 11:12:28
曝詹姆斯将不会接受手术，2个问题让他非常担忧，已采取保守治疗视讯

勒布朗詹姆斯率领的湖人队在今年的西部决赛中被掘进队，4:0横扫出局，

来源：程序员客栈时间：2023-06-20 10:26:03
索泰发布全新一代PGF旗舰显卡 16979元

索泰近日发布了全新一代的PGF旗舰非公版显卡—索泰GeForceRTX4090PGFOC

来源：程序员客栈时间：2023-06-20 10:04:54
平均降价56%！第八批国采药品7月10日起落地山东

近日，山东省医保局印发《关于执行国家组织第八批集中带量采购药品中选

来源：程序员客栈时间：2023-06-20 09:47:00
全球新消息丨确实有意思聊聊场景化造车和伪设计

最近汽车圈开始流行一个词汇，叫做场景化造车。顾名思义，就是将用户置

来源：程序员客栈时间：2023-06-20 09:10:33
植物大战僵尸超级存档版_植物大战僵尸年度版通关存档资讯推荐

1、植物大战僵尸存档已发送，请查收。2、userdata rar为存档，金钱9999

来源：程序员客栈时间：2023-06-20 08:44:52
重点聚焦!回音哥毕加索搞笑录音（回音哥）

近日来大家对于回音哥比较感兴趣，那么今天小D也是特地在网上收集了一

来源：程序员客栈时间：2023-06-20 07:53:56
餐厅吃到“预制菜”，消费者咋看？环球百事通

“中国西部预制菜之都”重庆市梁平区近年来打造了一批特色预制菜品牌和

来源：程序员客栈时间：2023-06-20 07:09:43
金普天气早知道｜阴云雨雾风叠加，备好雨具！-焦点热门

△点击蓝字关注我们你看天气我开心我报天气你放心昨天气温明显下滑想必

来源：程序员客栈时间：2023-06-20 06:17:26
睾酮素是什么分泌的_睾酮素是什么全球微速讯

1、睾丸素又称睾丸激素，是男性最重要的雄性激素。睾丸激素让男人有了

来源：程序员客栈时间：2023-06-20 05:06:03
谙怎么读_an怎么读环球即时

1、an，读音：英[ən]美[ən]art 一（在元音音素前）相关短语：AnEncou

来源：程序员客栈时间：2023-06-20 02:57:28
当前视点！西双版纳的介绍_西双版纳简介

1、西双版纳傣族自治州是云南省八个自治州之一，是景洪的首府。西双版

来源：程序员客栈时间：2023-06-20 00:47:07

物联网

建材

2021年度北京香山论坛专家视频会闭幕

第十三届中国舞蹈“荷花奖”民族民间舞评奖活动开幕

家居