Автоматизированное выявление нелинейных связей при построении регрессионных моделей индивидуальной оценки недвижимости. Практика
Н.П. Баринов
директор по научно-методической работе ГК «Аверс», канд. техн. наук, доц. (г. Санкт-Петербург)
К читателям. Настоящий материал направлен, прежде всего, на освоение практического применения и составлен с учетом совместного использования с расчетным файлом MS Excel «ВПР и Поиск решения_2021».
Одной из особенностей построения многомерных регрессионных моделей при оценке недвижимости является преобладание нелинейных зависимостей моделируемой величины от влияющих факторов, см., например, [1-3]. Оценщику необходимо выявлять вид нелинейной зависимости моделируемой величины (стоимости, рыночной арендной платы) от каждого из существенно влияющих факторов.

Умение выявлять реальные нелинейные зависимости в огромной степени определяет успех корректной спецификации регрессионных моделей. Представляется, что именно отсутствие такого умения сдерживает применение многомерного регрессионного анализа в индивидуальной оценке недвижимости.

В источниках, посвященных применению регрессионного анализа в оценке недвижимости (см., например, [4, 5]), можно встретить рекомендации по выбору расчетной модели из ограниченного набора относительно простых регрессионных моделей – линейных Y = a0 + a1X1 + ... + anXn , либо приводимых к линейному (по коэффициентам модели) виду путем логарифмирования, например, степенной:

показательной:
экспоненциальной: Y = a0 exp {a1X1 + ... + anXn } и др., где Y – модельное среднее значение зависимой переменной, Х1, … Хn – значения ценообразующих признаков (факторов) объектов недвижимости, a0, a1, ..., an – коэффициенты модели.

Моделей, из которых делается выбор, может быть больше, но предлагаемый прием понятен – нужно построить все известные модели, оценить качество каждой из них по определенным статистическим критериям и выбрать лучшую. Другими словами, предлагается вести перебор известных моделей.

При этом не гарантируется, что лучшая из известных моделей корректно описывает ценообразование на рассматриваемом конкретном рынке. Она – лучшая из рассмотренных моделей, не более того. Часто используемый на практике отбор модели по единственному критерию – коэффициенту детерминации (R-квадрат) является глубоко ошибочным, и его трудно воспринимать иначе, как примитивизм в понимании регрессионного анализа.

Альтернативой такому подходу является построение модели, учитывающей индивидуальные зависимости от каждого из факторов на рассматриваемом рынке, которые, как правило, имеют различный вид, аппроксимируемый разными аналитическими выражениями, в т.ч. – достаточно сложными.

Десять лет назад в докладе на IV Поволжской научно-практической конференции [6] было показано, что для зависимостей, заданных дискретно (таблично), всегда существует преобразование значений влияющего фактора, которое приводит связь зависимой переменной модели с этим фактором к линейному виду (рис. 1).

Рис. 1. Графическое представление преобразования z = z (x ) шкалы ценообразующего фактора x для линеаризации зависимости y = g (z ) от преобразованных значений z фактора x
Иными словами, в индивидуальной оценке (с конечным и относительно небольшим числом аналогов и значений ценообразующих факторов) всегда найдется такая замена переменных, которая приведет модель с нелинейными связями к модели с линейными зависимостями от преобразованных значений этих же факторов.

В практике индивидуальной оценки преобразование каждой из переменных может быть найдено, в том числе, совместным применением инструментов MS Excel: функции «ЛИНЕЙН», табличной формой задания функций и макроса «Поиск решения». Оптимизация проводится по минимуму среднеквадратической ошибки (СКО) или по максимуму коэффициента детерминации (R-квадрат), что эквивалентно [7]. Можно преобразовывать последовательно каждую из зависимостей, но этот процесс является итерационным – на каждом шаге итерации «наилучшая» нелинейная зависимость от одного фактора находится при неоптимизированных зависимостях от остальных факторов. Поэтому лучше и быстрее – искать нелинейное преобразование для всех влияющих переменных одновременно.

Идея совместного применения функции «ЛИНЕЙН», описывающей регрессионную модель с линейными связями, и макроса «Поиск решения», состоит в том, что значения ценообразующего фактора при поиске изменяются таким образом, чтобы зависимость моделируемой величины от преобразованных значений фактора максимально приближалась линейной функцией, повышая показатели качества регрессионной модели. Тем самым «автоматически» выявляется нелинейная зависимость моделируемой величины (оценки стоимости) от исходных значений ценообразующего фактора.

В процессе описанного преобразования координат необходимо решить две сопутствующие задачи.

Во-первых, все повторяющиеся значения влияющего фактора до преобразования должны также повторяться и в преобразованном виде.

Во-вторых, для получения монотонных зависимостей необходимо задавать порядок следования цифровых меток влияющего фактора в макросе «Поиск решения». При возрастающей зависимости необходимо, чтобы каждое последующее значение фактора было не меньше предыдущего, при убывающей зависимости – каждое последующее значение должно быть не больше предыдущего. Решение обеих сопутствующих задач ускоряется с помощью функции «ВПР» MS Excel.

Рассмотрим по шагам автоматизированную процедуру построения многофакторной регрессионной модели с нелинейными связями с использованием табличного задания функций влияния ценообразующих факторов и инструментов MS Excel – функций «ЛИНЕЙН», «ВПР» и макроса «Поиск решения».

Пусть имеется выборка двухкомнатных квартир-аналогов, расположенных в многоквартирных домах в районе новостроек с количественными (расстояние до метро, общая площадь, площадь кухни), и неколичественными (состояние, тип дома, этаж) данными.

Таблица 1. Выборка оцифрованных исходных данных для построения регрессионной модели ценообразования квартир
Применяя функцию ЛИНЕЙН() к полученной матрице значений влияющих переменных и вектор-столбцу зависимой переменой (удельных цен) и проводя дополнительные построения (см. файл MSExcel), получаем характеристики регрессионной модели, линейной относительно исходных координат:
Как видно, модель с линейными зависимостями нельзя признать адекватной рынку. Два из пяти факторов, признаваемых участниками рынка, существенно влияющими на цену, не значимы на требуемом (≥ 95%) уровне.

Кроме того, линейная зависимость стоимости квартир от расстояния до метро в интервале 80-1700м также не соответствует известным закономерностям ценообразования на рынке. Знаки коэффициентов данной модели соответствуют экономическим гипотезам (например, с удалением от станции метро средняя удельная цена квартиры при прочих равных падает).
Полную версию статьи, а также скачать расчетный файл MS Excel «ВПР и Поиск решения_2021», можно посмотреть в личном кабинете на сайте https://analytics.brn.media/