Аргументы функций обучаемого модуля

Типы полей, поддерживаемые функциями обучаемого модуля, включают: Integer, Long, Float, Double, Boolean, String, и Date.

Поле типа Integer, Long, Float, или Double, не имеющее допустимых значений, представляет собой числовой признак.

Для задач регрессии поле с зависимой переменной должно быть одного из четырех числовых типов. Заметим, что независимо от типа поля с зависимой переменной, предсказываемые значения будут типа Double.

Поле любого поддерживаемого типа (включая числовые), которое имеет допустимые значения, а также поле типа Boolean, представляет собой категориальный признак.

Для задач классификации колонка с зависимой переменной должна содержать категориальные данные. Лучший способ представления категориального признака или поля с зависимой переменной - использовать поле типа String с допустимыми значениями, которые содержат все возможные классы. Заметим, что назависимо от типа поля с зависимой переменной, предсказываемый класс будет типа String (с допустимыми значениями, которые включают все возможные классы).

Если задача определена как классификация, и поле с зависимой переменной не имеет допустимых значений, обучаемый модуль будет пытаться преобразовать значения в поле с зависимой переменной в категориальные, используя все уникальные значения как допустимые. Однако предполагается, что тестовая выборка не будет содержать значений, которых не было в обучающей выборке (т.е. тестовая выборка не должна содержать класс, которого не было в обучающей выборке).

Поле типа Date представляет собой признак соответствующего типа (Date).

Значения Null обрабатываются как отсутствующие. Кроме того, при невозможности предсказания для определенного экземпляра данных, функция Operate вернет Null в качестве предсказания.

Формат таблицы данных, переданной функции Train, сохраняется как ссылка для валидации формата. Таким образом, таблица данных, переданная функции Operate  или Evaluate, должна иметь абсолютно такой же формат, как и таблица данных, используемая для обучения (включая допустимые значения, возможность содержать значения Null и пр.). Несоответствие форматов приведет к ошибке.

Таблицы данных, переданные функциям Train, Evaluate или Cross Validate, должны содержать как минимум один экземпляр. Количество экземпляров также не может быть меньше, чем количество частей данных для перекрестной проверки.

Was this page helpful?