Аргументы функций обучаемого модуля

Типы полей, поддерживаемые функциями обучаемого модуля, включают: Integer, Long, Float, Double, Boolean, String, и Date.

Поле типа Integer, Long, Float, или Double, не имеющее допустимых значений, представляет собой числовой признак.

Для задач регрессии поле с зависимой переменной должно быть одного из четырех числовых типов. Заметим, что независимо от типа поля с зависимой переменной, предсказываемые значения будут типа Double.

Поле любого поддерживаемого типа (включая числовые), которое имеет допустимые значения, а также поле типа Boolean, представляет собой категориальный признак.

Для задач классификации колонка с зависимой переменной должна содержать категориальные данные. Лучший способ представления категориального признака или поля с зависимой переменной - использовать поле типа String с допустимыми значениями, которые содержат все возможные классы. Заметим, что назависимо от типа поля с зависимой переменной, предсказываемый класс будет типа String (с допустимыми значениями, которые включают все возможные классы).

Если задача определена как классификация, и поле с зависимой переменной не имеет допустимых значений, обучаемый модуль будет пытаться преобразовать значения в поле с зависимой переменной в категориальные, используя все уникальные значения как допустимые. Однако предполагается, что тестовая выборка не будет содержать значений, которых не было в обучающей выборке (т.е. тестовая выборка не должна содержать класс, которого не было в обучающей выборке).

Поле типа Date представляет собой признак соответствующего типа (Date).

Значения Null обрабатываются как отсутствующие. Кроме того, при невозможности предсказания для определенного экземпляра данных, функция Operate вернет Null в качестве предсказания.

Формат таблицы данных, переданной функции Train, сохраняется как ссылка для валидации формата. Таким образом, таблица данных, переданная функции Operate  или Evaluate, должна иметь абсолютно такой же формат, как и таблица данных, используемая для обучения (включая допустимые значения, возможность содержать значения Null и пр.). Несоответствие форматов приведет к ошибке.

Таблицы данных, переданные функциям Train, Evaluate или Cross Validate, должны содержать как минимум один экземпляр. Количество экземпляров также не может быть меньше, чем количество частей данных для перекрестной проверки.