Rolling rate что это
rolling rate
Смотреть что такое «rolling rate» в других словарях:
Rolling Hills Elementary School (Lancaster, Texas) — Rolling Hills Elementary School is a public school in Lancaster, Texas (USA). It is part of the Lancaster Independent School District.Located at 450 Rolling Hills Place in west central Lancaster, the school serves students in grades pre… … Wikipedia
Rolling-element bearing — A rolling element bearing is a bearing which carries a load by placing round elements between the two pieces. The relative motion of the pieces causes the round elements to roll with very little rolling resistance and with little sliding.One of… … Wikipedia
Rolling Stone Album Guide — Infobox Book name = The Rolling Stone Record Guide author = Dave Marsh and John Swenson (Editors) cover artist = subject = Music,Popular music,Discography,Sound recording,Reviews publisher = Random House/Rolling Stone Press release date = 1979… … Wikipedia
Rolling machine — For the manufacturing machine, see Rolling mill. A rolling machine is a machine that is designed to roll either tobacco or cannabis into individual cigarettes or joints. To roll a cigarette (B) with cannabis, one must break up the smoking… … Wikipedia
Rolling turbo — A rolling turbo is a financial derivative popular in Germany. It was introduced by Goldman Sachs in 2004. It is tradable by institutional and private investors. CharacteristicsThe most important characteristic of a rolling turbo is the strict… … Wikipedia
rolling barrage — noun : a barrage that moves forward by bounds at a fixed rate in advance of attacking infantry called also creeping barrage … Useful english dictionary
The Rolling Stones — Rolling Stones redirects here. For other uses, see Rolling Stones (disambiguation). The Rolling Stones Mick Jagger, Keith Richards, Ronnie Wood, Charlie Watts … Wikipedia
Hot rolling — is a metalworking process where large pieces of metal, such as slabs or billets, are heated above their recrystallization temperature and then deformed between rollers to form smaller cross sections. Hot rolling produces thinner cross sections… … Wikipedia
Clear rolling papers — are a recent trend in rolling papers. These papers are made from natural cellulose and are packed much like normal rolling papers. Each pack has between 20 50 sheets and is available in a multitude of sizes. The first Clear Rolling Papers were… … Wikipedia
The Rolling Stones — Para la revista musical, véase Rolling Stone. The Rolling Stones … Wikipedia Español
Operation Rolling Thunder — Part of the Vietnam War F 105 Thunderchiefs radar bombing at direction of a B 6 … Wikipedia
rolling rate
Смотреть что такое «rolling rate» в других словарях:
Rolling Hills Elementary School (Lancaster, Texas) — Rolling Hills Elementary School is a public school in Lancaster, Texas (USA). It is part of the Lancaster Independent School District.Located at 450 Rolling Hills Place in west central Lancaster, the school serves students in grades pre… … Wikipedia
Rolling-element bearing — A rolling element bearing is a bearing which carries a load by placing round elements between the two pieces. The relative motion of the pieces causes the round elements to roll with very little rolling resistance and with little sliding.One of… … Wikipedia
Rolling Stone Album Guide — Infobox Book name = The Rolling Stone Record Guide author = Dave Marsh and John Swenson (Editors) cover artist = subject = Music,Popular music,Discography,Sound recording,Reviews publisher = Random House/Rolling Stone Press release date = 1979… … Wikipedia
Rolling machine — For the manufacturing machine, see Rolling mill. A rolling machine is a machine that is designed to roll either tobacco or cannabis into individual cigarettes or joints. To roll a cigarette (B) with cannabis, one must break up the smoking… … Wikipedia
Rolling turbo — A rolling turbo is a financial derivative popular in Germany. It was introduced by Goldman Sachs in 2004. It is tradable by institutional and private investors. CharacteristicsThe most important characteristic of a rolling turbo is the strict… … Wikipedia
rolling barrage — noun : a barrage that moves forward by bounds at a fixed rate in advance of attacking infantry called also creeping barrage … Useful english dictionary
The Rolling Stones — Rolling Stones redirects here. For other uses, see Rolling Stones (disambiguation). The Rolling Stones Mick Jagger, Keith Richards, Ronnie Wood, Charlie Watts … Wikipedia
Hot rolling — is a metalworking process where large pieces of metal, such as slabs or billets, are heated above their recrystallization temperature and then deformed between rollers to form smaller cross sections. Hot rolling produces thinner cross sections… … Wikipedia
Clear rolling papers — are a recent trend in rolling papers. These papers are made from natural cellulose and are packed much like normal rolling papers. Each pack has between 20 50 sheets and is available in a multitude of sizes. The first Clear Rolling Papers were… … Wikipedia
The Rolling Stones — Para la revista musical, véase Rolling Stone. The Rolling Stones … Wikipedia Español
Operation Rolling Thunder — Part of the Vietnam War F 105 Thunderchiefs radar bombing at direction of a B 6 … Wikipedia
Методы прогнозирования рисков розничных портфелей
Методы прогнозирования неразрывно связаны со сценариями по продажам и маркетингу, кредитной политикой и макроэкономической ситуацией. Любые прогнозы должны быть основаны на различных сценариях, поскольку лишь в этом случае они смогут с высокой долей вероятности соответствовать реалиям окружающего мира. Например, мы не можем предсказать, приведет ли посткризисное восстановление экономики к снижению кредитных рисков в портфеле, пока не изучим влияние изменения в макроэкономической среде на кредитный портфель. В отсутствие же исторических данных нужно разрабатывать несколько сценариев (как минимум: «подъем экономики снизит кредитный риск» и «подъем экономики не снизит кредитного риска»).
Чем мы можем пользоваться?
Что касается самих методов прогнозирования, то каждый из них имеет свою спецификацию. «Качество происхождения», «Жизненные циклы», «Сезонность», «Скользящие средние», «Уровни перехода», «Матрицы миграции», «Кривые риска в поколении»… — количество и перечень используемых методик может зависеть от целей и точности прогноза.
Качество происхождения
Любая ссуда приобретает первичные признаки в момент ее выдачи. Может ли период образования кредитного портфеля отразиться на его качестве? Оказывается, может: ссуда, выданная в негативной окружающей среде, как ожидается, проявит себя хуже, чем ссуда, выданная в хорошей окружающей среде. Но эта закономерность в первую очередь относится к окружающей среде, а не к ссуде. И здесь на помощь приходят кредитные рейтинги — изменение окружающей среды для идентичных ссуд может распределить их в различные рейтинговые группы.
Как показала практика, финансовый кризис негативно влияет на качество кредитного портфеля. Однако свою роль в формировании качества в момент происхождения ссуды могут сыграть и другие факторы. Каналы продаж, территориальный фактор, конъюнктура рынка, конкуренция — это только малая часть тех факторов, которые могут оказаться значимыми, в том числе такие не слишком предсказуемые и управляемые, как действия конкурентов. Поэтому некоторые параметры модели должны изменяться оперативно, по факту. На рисунке 1 проиллюстрирована зависимость качества портфеля от периода его формирования.
Рисунок 1. Изменение окружающей среды
Также стоит помнить, что более поздние поколения кредитных портфелей не передают своих качеств более ранним. Хотя визуальное сравнение поколений по времени полезно, причины того или иного поведения поколений могут быть различными.
Жизненные циклы
Основополагающими для многих портфелей являются жизненные циклы. Чаще всего жизненные циклы отражают зависимость характеристик ссуды от срока, прошедшего с момента открытия ссуды. В анализе используются наблюдения за поколениями выданных кредитов (пулов) в различные периоды их жизни, формула жизненных циклов выглядит следующим образом 1 :
где Dt — уровень дефолтов (выплат/досрочных погашений и т.д.) в момент времени t.
Предположим, что A0 — размер портфеля, а Ot — остаток ссудной задолженности в момент времени t. Тогда в рамках одного наблюдения уровень выплаченной задолженности можно выразить как
Розничные ссуды в момент выдачи характеризуются наибольшим объемом активов, подверженных риску, с течением времени текущая задолженность снижается, уменьшается вероятность дефолта и увеличивается вероятность досрочного погашения (рис. 2).
Рисунок 2. Жизненные циклы
Анализ кривых качественных характеристик в проекции на сроки является наиболее эффективным предсказательным элементом прогнозирования розничных кредитных портфелей. Формы кривых могут варьироваться в зависимости от кредитных продуктов или демографических характеристик, но в любом случае формы этих кривых объяснимы и зависимы от срока.
Жизненные циклы очень важны в понимании качества кредитного портфеля, так как ссуды, открытые вчера, могут приобрести иные характеристики завтра, даже если ничего в окружающем пространстве не изменится. Например, для экспресс-кредитов, открытых сегодня, пик просроченной задолженности может наступить через год, а для автокредитов — через три года. Несмотря на кажущуюся простоту, эффект жизненных циклов играет важную роль в интерпретации поведения кредитного портфеля.
Сезонность
Подобно тому, как мы используем сезонные ожидания в разных областях нашей жизни, чтобы подготовиться к будущим результатам, мы можем использовать сезонность в целях прогнозирования потенциальных тенденций внутри кредитного портфеля.
Например, в области розничных продаж отчетливо прослеживаются циклы активности продаж в предновогодний период и резкое снижение в январе. В силу того что сезонность является одним из видов опережающего (впередсмотрящего) анализа, можно с уверенностью ожидать увеличения торговли и в декабре 2010 г.
Метод скользящих средних
Очень популярный метод, не требующий от специалиста владения достаточным математическим аппаратом. Суть его заключается в том, что на портфель или сегменты примеряются параметры, рассчитанные на основании недавних исторических данных. Формула простого скользящего среднего известна в математике в виде:
где Obsi — i-е наблюдение момента времени t;
n — количество наблюдений.
Например, если за последние три месяца портфель увеличился на х млн руб., мы делаем предположение, что в следующем месяце портфель вырастет на х/3 млн руб.
Рисунок 3. Уровни перехода
— чрезвычайно прост в расчетах;
— не требует множества исторических данных.
— не обеспечивает понимания, что происходит с кредитным портфелем;
— не может включать сценарии или внешние факторы, так как не изучает исторических движущих сил.
Данный метод пользуется популярностью только благодаря своей простоте. Нельзя забывать о том, что он содержит в себе высокую вероятность ошибки. Метод скользящих средних может использоваться только для быстрой оценки или контроля, но никакое важное решение ни в коем случае не должно базироваться исключительно на этом методе.
Уровни перехода (roll-rates)
Модели уровней перехода представляют собой упрощенное подмножество более широкого класса моделей — моделей Маркова. Анализ предполагает сравнение просроченной задолженности, определенной в месяц Х, с тем, что будет в следующем месяце, а также расчет доли кредитов, ставших лучше или перешедших в следующую стадию просрочки. Предсказание происходит путем вычисления на основании исторических данных среднего уровня перехода (рис. 3).
— показывает внутреннюю структуру портфеля.
— неэластичен к быстроизменяющимся внешним факторам;
— наилучшие результаты показывает в состоявшемся кредитном портфеле;
— не изучает исторических движущих сил.
Матрицы миграции
Одна из разновидностей марковских моделей — матрица перехода Маркова. Это квадратная матрица, описывающая вероятность перехода сегмента портфеля из одной стадии в другую. Вероятность такого перехода соответствующего сегмента отображается в каждой строке. Подобные матрицы часто обозначаются как Q(x’|x), где Q — матрица, x — текущая стадия, x’ — возможная будущая стадия (рис. 4).
Рисунок 4. Матрица миграции
— логически более развиты и осмысленны относительно моделей перехода;
— дают полное представление о движущих силах внутри портфеля.
— есть необходимость в дополнительных моделях, так как не используются такие важные факторы, как жизненные циклы, сезонность и т.д.;
— не используются данные, находящиеся за пределами периода анализа (рис. 5).
Рисунок 5. Иллюстрация недостатков матриц миграций
Кривые риска в поколении (vintage curves analysis)
Частный пример жизненных циклов. Кривая риска в поколении — функция просроченной задолженности от срока жизни поколения, причем период формирования поколения считается начальной точной анализа (рис. 6).
Рисунок 6. Иллюстрация кривых риска в поколении
— наивысшая точность достигается за счет использования в моделях жизненных циклов — существенного фактора в кредитном портфеле;
— понятный и сравнительно простой с точки зрения расчетов метод;
— возможность использования дополнительных характеристик, таких как вероятность закрытия, досрочного погашения, темпы сбора и т.д.
— каждое поколение обладает уникальными характеристиками, соответственно модель должна быть приспособлена под каждое поколение;
— стоит помнить, что свойства ранних поколений не передаются более поздним;
— внешние факторы могут демонстрировать различный эффект на различных поколениях.
Чем же лучше пользоваться?
Основополагающий вопрос, ответ на который зависит от нескольких факторов. При выборе метода прогнозирования необходимо отталкиваться от объема доступных данных. При наличии данных за период менее года можно использовать:
1) гадание на кофейной гуще;
2) метод скользящих средних;
3) если есть уверенность, что портфель относительно стабилен во времени, то подойдут матрицы миграции;
4) при недостатке данных также может помочь разработка всевозможных сценариев развития портфеля.
При наличии данных за период более года мы уже можем использовать:
1) сезонные факторы;
2) жизненные циклы, кривые риска в поколениях и т.д.;
3) матрицы миграций.
Очевидно, что объем данных коррелирует со сроком жизни кредитных продуктов. Наблюдений за один год может хватить для прогнозирования портфелей экспресс-кредитов, в то же время их будет недостаточно для анализа портфеля автокредитов.
Сложность расчетов напрямую зависит от размера портфеля и доступных программных средств. Если маленький портфель можно смоделировать в Excel, то для моделирования больших портфелей не обойтись без SAS/SQL.
Выбор метода также зависит от целей расчета. Понятно, что в некоторых случаях достаточно рассчитать среднее значение и не тратить ресурсы на построение сложных моделей. Также следует помнить, что более простые методы характеризуются наибольшей вероятностью ошибки. Но даже самый правильный метод, основанный на портфельных данных, не сможет уберечь нас от неожиданностей, вызванных чувствительностью кредитного портфеля к изменениям в экономике, маркетинговых планах и кредитной политике. Чтобы правильно спрогнозировать риски кредитного портфеля, необходимо рассмотреть целый ряд возможных сценариев, методов и последствия каждого из них. Моделирование нескольких сценариев позволит руководству выбрать более правильную стратегию.
ML и DS оттенки кредитного риск-менеджмента | Компоненты
В предыдущей статье цикла о моделировании в задачах управления кредитным риском (здесь) мы провели обзор трех задач кредитного риск-менеджмента, нашли возможные точки приложения ML и DS к этим задачам и попутно ввели набор терминов для дальнейшей работы.
Сейчас мы расскажем о трех компонентах (PD, LGD, EAD), которые участвуют при расчете ожидаемых потерь: рассмотрим основные драйверы и методологию построения моделей. В конце статьи приведем сводную таблицу с особенностями работы с компонентами на различных этапах разработки, сформированную на основе нашего проектного опыта.
За подробностями добро пожаловать под кат.
PD или как ковер задает стиль всей комнате
Определение дефолта
Начнем с главной компоненты, которую необходимо оценивать (например, в случае базового или продвинутого ПВР) PD (a. k. a. probability of default) – вероятность дефолта клиента. В качестве свидетельства о дефолте клиента могут выступать разные события в кредитной истории. Часто – это просрочка платежа по кредитному договору 90 и более дней.
Для подсчета количества дней просрочки существует два метода: LIFO (last in first out) и FIFO (first in first out) [1]:
Для определения дефолта необходимо задать следующие три атрибута:
Но этого недостаточно для формирования целевого события. У целевого события есть еще один важный атрибут: горизонт сбора информации о дефолте, или горизонт моделирования.
Определение длины горизонта
Информация о дефолте используется для оценки ожидаемых потерь, под которые банк осуществляет резервирование. В этом случае возникает вопрос, а на каком периоде смотреть выходы в дефолт? Важно ли это? С точки зрения бизнеса, важно понимать период планирования, с точки зрения моделей мы хотим выбрать такой период, в котором будет охвачено не менее 80%-90% всех возможных выходов в дефолт для всех открытых и не находящихся в дефолте договоров на текущий момент времени.
Для целей выбора длины горизонта может быть использован винтажный анализ [2]. Он заключается в построении графической аналитики и последующего вывода о данных по ней. График может быть построен так:
При построении графика выше для каждой когорты было рассчитано значение, составляющее 80% от максимального числа наблюдений, вышедших в дефолт, а диапазон полученных значений обозначен серой полосой. По графику можно сделать вывод о том, что оптимальная длина горизонта лежит в интервале 6-8 месяцев.
Сегментирование выборки
Некоторые атрибуты настолько сильно коррелируют с целевой переменной, что вклад остальных практически нивелируется. Это приводит к моделям с плохим ранжированием внутри группы с одинаковым значением «главного» атрибута. Во избежание такой ситуации используют подход сегментации, в рамках которого выборку делят на два или несколько сегментов — по одному на каждое значение «главного» атрибута (драйвера), и для каждого из них строят отдельную модель. В кредитном риске один из таких драйверов – наличие или длительность просрочки по платежу.
Если выборка была разделена на два сегмента по длительности просрочки: сегмент с малой просрочкой и сегмент с большой просрочкой, и второй сегмент достаточно мал, то для него можно сделать простую модель на двух атрибутах: на скоринговом балле модели с малой просрочкой и длительности текущей просрочки. Если результат удовлетворяет всем требованиям валидации, то на нем можно остановиться.
Альтернативно можно разделить выборки на сегменты с просрочками за историю (I) и без просрочек за историю (II).
Необходимое условие для сегментации – достаточное количество дефолтных наблюдений в каждом из сегментов. А для того, чтобы выяснить целесообразность и границы новых сегментов используется roll-rate анализ [3]. Он заключается в разделении выборки на подсегменты на основании значений величины текущей просрочки и сравнении между ними среднего уровня дефолта. Те группы, уровень дефолта которых значимо различается, имеет смысл моделировать по отдельности.
Рассмотрим, например, сегментацию наблюдений по величине просрочки. На картинке ниже в качестве примера выделены следующие 5 сегментов, соответствующих интервалам (бакетам) значений просрочки: 0-4 дня, 5-14 дней, 15-29 дней, 30-59 дней, 60-89 дней. Эти сегменты рассматриваются в нескольких моментах времени: HY1_2015, HY2_2015 — соответственно, первое и второе полугодия 2015 года, HY1_2016, HY2_2016 — соответственно, первое и второе полугодия 2016 года. В процессе анализа нас интересует динамика выхода наблюдений в просрочку более 89 дней, поэтому для каждого из этих сегментов подсчитан процент клиентов, просрочка которых на горизонте наблюдения составила более 89 дней.
По графику можно сделать следующие выводы:
EAD (Деньги в дефолте)
После того, как оценена вероятность дефолта заемщика, ставится вопрос – с какой суммой задолженности заемщик уйдет в дефолт? Эта сумма линейно влияет на размер ожидаемых потерь и, соответственно, объем резервов, и называется exposure at default – требования в дефолте. Итак, EAD – exposure at default – кредитные обязательства по договору на момент дефолта.
Напрямую, как правило, EAD не моделируют. Так как эта величина – денежная, её распределение не носит нормальный характер: в выборке могут присутствовать наблюдения очень большие и очень маленькие, не являющиеся при этом аномалиями. В зависимости от специфики портфеля можно выбрать разные целевые переменные – об этом подробнее будет сказано в последующих статьях цикла, но наиболее широко используемая – CCF – credit conversion factor – коэффициент кредитной конверсии – вычисляется следующим образом:
где:
Balance – сумма средств, которые клиент должен банку в момент наблюдения,
Limit – доступный клиенту лимит,
EAD – сумма средств, который клиент должен банку в момент дефолта.
Получается, что CCF – это та часть доступных на момент наблюдения средств, которая будет использована клиентом к моменту дефолта.
Как и вероятность дефолта, эту величину необходимо прогнозировать заранее. Обычно горизонт прогноза такой же, что и у PD.
Все описанное выше касалось денег до дефолта и во время него. А что происходит сразу после? Об этом компонента LGD.
LGD («Где деньги, Лебовски?»)
Даже в случае дефолта заемщика, часть средств возвращается в банк:
Поскольку временной интервал, на котором происходит т.н. «восстановление» (возвращение долга), может варьироваться поклиентно, возникает необходимость определить длину горизонта восстановления, на котором будет рассчитываться целевая переменная. На длину горизонта влияет в первую очередь доступность достаточного временного периода в данных для моделирования. Обычно длина горизонта лежит в диапазоне 3-5 лет после дефолта.
В общем случае LGD рассчитывается формуле:
где:
Ri – денежный поток от клиента (выплаты, реализация залога и др.), полученный на горизонте восстановления после дефолта,
T – временной период от момента учета возмещения после момента дефолта (в годах).
При расчете денежного потока, который идет на восстановление, обычно используется дисконтирование – механизм учета текущей стоимости денежных средств, полученных на горизонте восстановления. Особенно это актуально на больших горизонтах, когда стоимость денег может существенно изменяться.
Суммы возмещения, затрат и продажи долга при дисконтировании умножаются на «фактор дисконтирования» [4] P(T):
T – временной период от момента учета возмещения после момента дефолта (в годах),
r – ставка дисконтирования.
В качестве r может быть использована, например, процентная ставка по договору.
С компонентами, в первом приближении, понятно: все разные, а моделировать их нужно вместе! Есть ли какой-то подход, который позволит более-менее единообразно отобрать переменные для моделей и выбрать наиболее оптимальную комбинацию? Можно попробовать. О возможном варианте далее.
«Великолепный план, Уолтер … надёжный как … швейцарские часы» или pipeline разработки
Этапы моделирования компонент риска схематично изображены на следующей диаграмме (стрелки – дополнительные итерации, возникающие в процессе разработки):
Подготовка данных
Подготовка данных включает в себя формирование трёх сущностей: наблюдения (сегмент), витрина дефолтов, витрина атрибутов,- с единым внешним ключом — ID заемщика или договора и временная метка.
Такая декомпозиция обеспечивает гибкий подход к формированию выборки – легко изменять горизонт, гранулярность наблюдений, определение дефолта и не беспокоиться о корректности сбора атрибутов для итоговой витрины.
Каждое наблюдение – ID заемщика или договора и временная метка; другими словами, нас интересует состояние заемщика или договора на конкретную дату. Обычно используются наблюдения, соответствующие временным срезам, отстоящим друг от друга на равные промежутки времени (например, квартальным).
В случае задачи резервирования объем данных должен включать в себя полный экономический цикл, что составляет примерно 5-7 лет.
Для формирования выборки необходимо учитывать горизонт.
В выборки для разработки и тестирования включаются наблюдения, для которых есть данные о выходе в дефолт на всем горизонте, поскольку включение наблюдений, для которых не прошел полный этап сбора (на картинке изображен красным цветом) приведёт к смещению величины уровня дефолта.
Из-за необходимости учитывать период сбора, оптимальная глубина данных составляет 2-3 горизонта наблюдения.
Также, если в модели планируется учесть какого-то рода сезонность — необходимо соответствующим образом выбирать глубину данных и периодичность срезов.
В таблице под катом перечислены основные группы и примеры атрибутов широкого списка переменных.
Блок атрибутов | ЮЛ/ФЛ | Описание | Примеры |
Профиль | ЮЛ | Данные, характеризующие компанию | ОКОПФ, ОКВЭД (отрасль), возраст компании, число руководителей. Количество полных лет/месяцев обслуживания в банке. |
ФЛ | Анкета клиента, социодемографические данные | Семейное положение, пол, возраст, образование Количество полных лет/месяцев обслуживания в банке | |
Государственные контракты | ЮЛ | Сводные данные по количеству и сумме государственных контрактов компании | Количество/сумма гос. контрактов за период. Динамика данных показателей. |
ФЛ | — | — | |
Арбитражные дела | ЮЛ | Сводные данные по количеству и сумме арбитражных дел, в которых компания принимала участие. | Количество/сумма арбитражных дел компании в качестве ответчика/истца/третьего лица за период. Динамика данных показателей. |
ФЛ | Сводные данные по количеству и сумме арбитражных дел, в которых клиент принимал участие. | Количество/сумма арбитражных дел клиента в качестве ответчика/истца/третьего лица за период. Динамика данных показателей. | |
Транзакционные агрегаты | ЮЛ | Сводные данные по количеству транзакций и оборотам для клиента | Количество/сумма операций списания/начислений за период. Оборот компании за период. Динамика данных показателей. |
ФЛ | Сводные данные по количеству транзакций и оборотам для клиента | Количество/сумма операций списания/начислений за период. Оборот собственных средств клиента за период. Динамика данных показателей. | |
Финансовые показатели | ЮЛ | Данные по финансовым показателям компании | Выручка, активы, общие обязательства EBITDA, OIBDA, Equity, оборачиваемость внеоборотных активов, оборачиваемость кредиторской задолженности и др. фин. показатели за период. Динамика данных показателей. |
ФЛ | Данные по финансовым показателям клиента | Payment to income (PTI), debt to income (DTI) | |
Контрагенты | ЮЛ | Взаимодействие с контрагентами, фигурантами списка клиентов с сомнительной репутацией | Флаг наличия транзакций с фигурантами списка клиентов с сомнительной репутацией за период, число уникальных контрагентов за период |
ФЛ | Взаимодействие с другими ФЛ, входящими в список клиентов с сомнительной репутацией | Флаг наличия транзакций с фигурантами списка клиентов с сомнительной репутацией за период, число уникальных взаимодействий за период | |
Внешние данные | ЮЛ | БКИ | Агрегированные показатели времени жизни договоров. Количество открытых договоров за период. Динамика открытия договоров. Агрегаты количества просрочек по контрактам за период в разрезе категорий просрочки. |
ФЛ | БКИ | Агрегированные показатели времени жизни договоров. Количество открытых договоров за период. Динамика открытия договоров. Агрегаты количества просрочек по контрактам за период в разрезе категорий просрочки. | |
Негативная история | ЮЛ | Попадание в список клиентов с сомнительной репутацией, срабатывание алгоритмов отслеживания мошеннических операций, результаты расследований | Количество срабатываний алгоритмов отслеживания мошеннических операций за период, флаг попадания в список клиентов с сомнительной репутацией |
ФЛ | Попадание в список клиентов с сомнительной репутацией, срабатывание алгоритмов отслеживания мошеннических операций, результаты расследований | Количество срабатываний алгоритмов отслеживания мошеннических операций за период, флаг попадания в список клиентов с сомнительной репутацией | |
Группа | ЮЛ | Данные по компаниям, связанных с данной | Вхождение в группу компаний с задолженностью/наличием арбитражных дел/присутствие компаний с высокорискованными ОКВЭДами |
ФЛ | Данные по клиентам, связанных с данным | Вхождение в группу клиентов с негативной информацией – просрочка, фрод. | |
Другие продукты | ЮЛ | Данные по другим используемым продуктам банка | Флаг использования других продуктов, количество продуктов, оборот по продуктам. Динамика показателей. |
ФЛ | Данные по другим используемым продуктам банка | Флаг использования других продуктов, количество продуктов, оборот по продуктам. Динамика показателей. |
Один из способов увеличения интерпретируемости и стабильности модели – это использование в качестве атрибутов не абсолютных значений признаков, а относительных: нормированных, например, на доход (выручку) или отражающих тренд/динамику показателя на временном интервале.
Однофакторный анализ
Целью проведения однофакторного анализа является уточнение широкого списка факторов таким образом, чтобы исключить неподходящие переменные.
Для проведения однофакторного анализа необходимо разбить выборку на выборки для разработки (train) и тестирования (test). Выборка для тестирования может быть сформирована одним из следующих способов:
Стоит отметить, что в идеальном мире (где достаточное число клиентов и дефолтов) корректнее разбивать исходную выборку на три части (разработка, валидация и тестирование). В рамках такого разбиения проведение однофакторного анализа ведется на выборках для разработки и валидации, а итоговое качество отбора оценивается на выборке для тестирования. Для упрощения мы здесь и далее рассматриваем разбиение на train/test.
Многофакторный анализ и финальная модель
Цель многофакторного анализа – построение оптимальной комбинации факторов из списка, образованного на предыдущем шаге, для максимизации предсказательной силы модели при сохранении стабильности.
Процесс многофакторного анализа заключается в построении множества моделей и выборе наилучшей из них. Модели строятся на различных наборах атрибутов из списка, сформированного на этапе однофакторного анализа,
Две самые распространенные модели для прогноза вероятности дефолта – это:
где:
DistrGood – отношение числа недефолтных наблюдений, имевших значение атрибута из данного бина, к общему числу недефолтных наблюдений;
DistrBad – отношение числа дефолтных наблюдений, имевших значение атрибута из данного бина, к общему числу дефолтных наблюдений.
Общие правила для выполнения категоризации атрибутов складываются из экспертных правил (принципы заполнения пропусков, условие монотонности WOE, соответствие логике атрибута) и статистических критериев (достаточность наблюдений в категории).
Одним из недостатков подхода с использованием значений WOE вместо реальных значений атрибута являются потенциально возможные скачки значений вероятности дефолта (PD). Для решения указанной проблемы может использоваться сглаживание порогов функции WOE с целью создания непрерывных «плавных» переходов между соседними значениями WOE. Чаще всего сглаживание может производиться с помощью сигмоиды или гиперболического тангенса.
После описанных выше преобразований над атрибутами модель логистической регрессии строится над преобразованными атрибутами. Для выбора оптимальной комбинации факторов может быть использовано несколько подходов: [6]:
При построении модели в качестве оптимизируемой метрики могут быть использованы информационные критерии (например, SBC [8], AIC [9]). Разбиение атрибутов на группы и расчет значений WOE производится на выборке для разработки, а затем сформированный биннинг и соответствующие ему значения WOE транслируются в выборку для тестирования.
В случае, когда нет требования интерпретируемости, может быть использована модель градиентного бустинга, наиболее часто используется реализация библиотеки Xgboost. В данном случае отсутствует требование к слабой корреляции атрибутов модели. В случае необходимости ограничить набор признаков модели, используется значимость атрибута – его вклад в итоговое качество, оцениваемое коэффициентом Джини, дает не менее 1% или уменьшает функцию потерь на величину, превышающую пороговое значение.
Итоговое качество модели определяется на тестовой выборке. Выборка для тестирования может формироваться тем же способом, что и при проведении однофакторного анализа.
Сводная таблица по компонентам
PD | LGD | EAD | |
Целевое событие | Вероятность дефолта (например, просрочка 90+) на горизонте заданной длины | Часть долга, не возвращенная за период восстановления после дефолта | Размер долга, который клиент будет должен на момент дефолта |
Тип задачи | Бинарная классификация | Регрессия | Регрессия |
Горизонт | Срок, в течение которого клиент может попасть в дефолт (например, 1 год) | Период восстановления после дефолта (3-5 лет) | Срок, в течение которого клиент может попасть в дефолт (например, 1 год) |
Глубина данных (оптимальная/минимальная) | Экономический цикл (5-7 лет)/2-3 горизонта выхода в дефолт | Экономический цикл (5-7 лет) / 2-3 горизонта восстановления + 1 горизонт выхода в дефолт (для недефолтных договоров) | Экономический цикл (5-7 лет)/2-3 горизонта выхода в дефолт |
Алгоритмы | Интерпретируемые – логистическая регрессия, решающие деревья. Неинтерпретируемые – XGBoost, MLP | GLM, логистическая регрессия, деревья решений, цепочно-лестничные методы | GLM, логистическая регрессия |
Основные драйверы | Время жизни договора, флаг наличия просрочек на некотором периоде, длительность текущей просрочки, оборот собственных средств, утилизация, обеспечение залогами, payment to income (PTI), debt to income (DTI), размер компании (для ЮЛ), отрасль (для ЮЛ) | Количество дней в просрочке, возраст дефолта, наличие других кредитных договоров у данного клиента и его платежное поведение по ним, обеспечение, размер компании | Количество дней в просрочке, размер утилизации на некотором периоде, время жизни договора, размер компании |
Корректировка в рамках жизненного цикла модели | Калибровка | Калибровка/Downturn factor | Калибровка/Downturn factor |
Особенные требования к данным | История дефолтов, определение группы связанных лиц, список банкротств | Требуются факты реализации залогов (чаще для ЮЛ), факты продажи и списания кредитов | Определение сегмента для моделирования («лимитных» продуктов), работа с траншами и корректное определение графика платежа по «лимитным» продуктам |
Архитектура модели | Однокомпонентная – моделируется непосредственно PD в разрезе бизнес или аналитических сегментов | Однокомпонентная [Recovery Rate(RR)/LGD], или двухкомпонентная –(вероятность выздоровления, уровень восстановления (RR)) для двух сегментов (договора в дефолте и не в дефолте) | Однокомпонентная, но через вспомогательную переменную (например, CCF), двухкомпонентная – две вспомогательные компоненты |
Основная метрика для количественной первичной валидации | Джини, биномиальный тест, тест Херфиндаля (распределение по рейтинговой шкале) | Джини модифицированный, Loss-shortfall, зависимость поведения от возраста дефолта/длительности просрочки | Джини модифицированный |
Выводы
Итак, в статье мы провели детализацию особенностей моделирования компонент ожидаемых потерь: PD, LGD и EAD.
Главный вывод можно сформулировать следующим образом: прежде чем мы дойдем до import xgboost as xgb ML необходимо существенную часть времени потратить на аналитику и учитывать особенности бизнес-процессов при разработке и тестировании модели. Формулу для DS, применительно к нашим компонентам, можно записать в следующем виде:
Однако здесь стоит иметь ввиду два момента. Во-первых, для сегмента физических лиц характерна большая доля ML и автоматизации решений, по сравнению с сегментом юридических лиц. Во-вторых, доля ML вырастает за счет привлечения продвинутых алгоритмов для анализа, например текстовых и геоданных, а также для поиска сложных паттернов поведения клиентов по разнородным источникам.
Авторы статьи: Александр Бородин (abv_gbc), Алиса Пугачёва (alisaalisa),
Артём Савинов (artysav), Илья Могильников (eienkotowaru).