Рассмотрим в качестве примера зависимость между суточной выработкой продукции Y(т) и величиной основных производственных фондов Х (млн руб.) для совокупности 50 однотипных предприятий (табл. 1).

(В таблице через

и

обозначены середины соответствующих интервалов, а через

, и

– соответственно их частоты.)
Для каждого значения, т.е. для каждой строки корреляционной таблицы вычислим групповые средние

(1.5)
где

- частоты пар (

) и

; m – число интервалов по переменной Y.
Вычисленные групповые средние

поместим в последнем столбце корреляционной таблицы и изобразим графически в виде ломаной, называемой эмпирической линией регрессии Y по X
Аналогично для каждого значения

по формуле

(1.6)
вычислим групповые средние

, где

, l – число интервалов по переменной X.
По виду ломанной можно определить наличие линейной корреляционной зависимости Y по X между двумя рассматриваемыми переменными, которая выражается тем точнее чем больше объем выборки n:
n=

(1.7)
Поэтому уравнение регрессии(1.3) будем искать в виде:

(1.8)
Отвлечемся на время от рассматриваемого примера и найдем формулы расчета неизвестных параметров уравнения линейной регрессии.
С этой целью применим метод наименьших квадратов, согласно которому неизвестные параметры

и

выбираются таким образом, чтобы сумма квадратов отклонений эмпирических групповых средних

, вычисленных по формуле (1.5), от значений

, найденных по уравнению регрессии (1.8), была минимальной:
S=

(1.9)
На основании необходимого условия экстремума функции двух переменных S=S(

) приравниваем к нулю ее частные производные, т.е.

Откуда после преобразования получим систему нормальных уравнений для определения параметров линейной регрессии:

(1.10)
Учитывая (1.5) преобразуем выражение и с учетом (1.7), разделив обе части уравнений (1.10) на n, получим систему нормальных уравнений в виде:

(1.11)
где соответствующие средние определяются по формулам:

,

(1.12)

(1.13)

(1.14)
Подставляя значение

из первого уравнения системы(1.11) в уравнение регрессии (1.8), получаем

(1.15)
Коэффициент b1 в уравнении регрессии, называемый выборочным коэффициентом регрессии (или просто коэффициентом регрессии) Yпо Х, будем обозначать символом

. Теперь уравнение регрессии Yпо Х запишется так:

(1.15)
Коэффициент регрессии Yпо Х показывает, на сколько единиц в среднем изменяется переменная Y при увеличении переменной Х на одну единицу.
Решая систему (1.11), найдем

, (1.16)
где

- выборочная дисперсия переменной X

=

– (

(1.17)
µ - выборочный корреляционный момент:
µ=

(1.18)
Рассуждая аналогично и полагая уравнение регрессии (1.4) линейным, можно привести его к виду:

где

(1.21)
выборочный коэффициент регрессии (или просто коэффициент регрессии) Х по Y, показывающий, на сколько единиц в среднем изменяется переменная Х при увеличении переменной Y на одну единицу

=

– (

–выборочная дисперсия переменной Y.
Так как числители в формулах (1.16) и (1.20) для

и

совпадают, а знаменатели – положительные величины, то коэффициент регрессии

и

имеют одинаковые знаки, определяемые знаком

. Из уравнений регрессии (1.15) и (1.19) следует, что коэффициенты

и

определяют угловые коэффициенты (тангенсы углов наклона) к оси Ох соответствующих линий регрессии, пересекающихся в точке (

).
Перейдем к оценке тесноты корреляционной зависимости. Рассмотрим наиболее важный для практики и теории случай линейной зависимости вида (1.15).На первый взгляд подходящим измерителем тесноты связи Yот Х является коэффициент регрессии

ибо, как уже отмечено, он показывает, на сколько единиц в среднем изменяетсяY, когда Х увеличивается на одну единицу. Однако

зависит от единиц измерения переменных. Например, в полученной ранее зависимости он увеличится в 1000 раз, если величину основных производственных фондов Х выразить не в млн руб., а в тыс. руб.
Очевидно, что для «исправления»

как показателя тесноты связи нужна такая стандартная система единиц измерения, в которой данные по различным характеристикам оказались бы сравнимы между собой. Статистика знает такую систему единиц. Эта система использует в качестве единицы измерения переменной ее среднее квадратическое отклонение s.
Представим уравнение (1.15) в эквивалентном виде:

(1.22)
В этой системе величина
r =

(1.23)
показывает, на сколько величин

изменится в среднем Y, когда X увеличится на одно

.Величина r является показателем тесноты линейной связи и называется выборочным коэффициентом корреляции (или просто коэффициентом корреляции).

На рис. 1.2 приведены две корреляционные зависимости переменной Yпо Х. В случае а) зависимость между переменными менее тесная и коэффициент корреляции должен быть меньше, чем в случае б), так как точки корреляционного поля а) дальше отстоят от линии регрессии, чем точки поля б).