so_magic.data.init_data_manager() - Code Metrics - Inspection of "refactor(data_manager_factory): automatically buil..." - boromir674/so-magic - Measure and Improve Code Quality continuously with Scrutinizer

Passed

Push — mpeta ( ff9ea9...522f25 )

by Konstantinos

created 2021-04-21 10:45 UTC

so_magic.data.init_data_manager() B

↳ Parent: so_magic.data

Complexity

Conditions

Size

Total Lines	75
Code Lines	55

Duplication

Lines	0
Ratio	0 %

Importance

Changes

Metric	Value
cc	2
eloc	55
nop	1
dl	0
loc	75
rs	8.4727
c	0
b	0
f	0

How to fix Long Method

from .data_manager import DataManager
from .features.phi import PhiFunctionRegistrator
from .features import FeatureManager
from .command_factories import DataManagerCommandFactory


def init_data_manager(a_backend):
    data_manager = DataManager(a_backend, type('PhiFunction', (PhiFunctionRegistrator,), {}), FeatureManager([]))
    mega_cmd_factory = DataManagerCommandFactory(data_manager)
    mega_cmd_factory.attach(data_manager.commands_manager.command.accumulator)

    @data_manager.backend.engine.dec()
    def encode_nominal_subsets(datapoints, attribute, new_attribute):
        from so_magic.data.features.phis import ListOfCategoricalPhi, DatapointsAttributePhi
        phi = ListOfCategoricalPhi(DatapointsAttributePhi(datapoints))
        new_values = phi(attribute)
        datapoints.mutator.add_column(datapoints, new_values, new_attribute)

    import pandas as pd

    @data_manager.backend.engine.dec()
    def observations(file_path):
        return pd.read_json(file_path, lines=True)

    from so_magic.data.encoding import NominalAttributeEncoder


    class OneHotEncoder(NominalAttributeEncoder):

        def encode(self, *args, **kwargs):
            datapoints = args[0]
            attribute = args[1]
            prefix_separator = '_'
            dataframe = pd.get_dummies(datapoints.observations[attribute], prefix=attribute, prefix_sep='_', drop_first=False)
            self.values_set = [x.replace(f'{attribute}{prefix_separator}', '') for x in dataframe.columns]
            self.columns = [x for x in dataframe.columns]
            return dataframe


    @mega_cmd_factory.build_command_prototype()
    def one_hot_encoding(_data_manager, _datapoints, _attribute):
        dataframe = OneHotEncoder().encode(_datapoints, _attribute)
        _data_manager.datapoints.observations = pd.concat([_data_manager.datapoints.observations, dataframe], axis=1)
    
    
    @mega_cmd_factory.build_command_prototype()
    def select_variables(_data_manager, variables):
        _data_manager.feature_manager.feature_configuration = variables


    import numpy as np
    from functools import reduce

    class OneHotListEncoder(NominalAttributeEncoder):
        binary_transformer = {True: 1.0, False: 0.0}

        def encode(self, *args, **kwargs):
            datapoints = args[0]
            attribute = args[1]
            self.values_set = reduce(lambda i, j: set(i).union(set(j)), [_ for _ in datapoints.observations[attribute] if type(_) == list])
            self.columns = [_ for _ in self.values_set]
            return pd.DataFrame([self._yield_vector(datarow, attribute) for index, datarow in datapoints.iterrows()], columns=self.columns)

        def _yield_vector(self, datarow, attribute):
            decision = {True: self._encode, False: self._encode_none}
            return decision[type(datarow[attribute]) == list](datarow, attribute)

        def _encode(self, datarow, attribute):
            return [OneHotListEncoder.binary_transformer[column in datarow[attribute]] for column in self.columns]

        def _encode_none(self, datarow, attribute):
            return [0.0] * len(self.values_set)

    @mega_cmd_factory.build_command_prototype()
    def one_hot_encoding_list(_data_manager, _datapoints, _attribute):
        _data_manager.datapoints.observations[_attribute].fillna(value=np.nan, inplace=True)
        dataframe = OneHotListEncoder().encode(_datapoints, _attribute)
        _data_manager.datapoints.observations = pd.concat([_data_manager.datapoints.observations, dataframe],
                                                            axis=1)

    return data_manager


1			from .data_manager import DataManager
2			from .features.phi import PhiFunctionRegistrator
3			from .features import FeatureManager
4			from .command_factories import DataManagerCommandFactory
5
6
7			def init_data_manager(a_backend):
8			data_manager = DataManager(a_backend, type('PhiFunction', (PhiFunctionRegistrator,), {}), FeatureManager([]))
9			mega_cmd_factory = DataManagerCommandFactory(data_manager)
10			mega_cmd_factory.attach(data_manager.commands_manager.command.accumulator)
11
12			@data_manager.backend.engine.dec()
13			def encode_nominal_subsets(datapoints, attribute, new_attribute):
14			from so_magic.data.features.phis import ListOfCategoricalPhi, DatapointsAttributePhi
15			phi = ListOfCategoricalPhi(DatapointsAttributePhi(datapoints))
16			new_values = phi(attribute)
17			datapoints.mutator.add_column(datapoints, new_values, new_attribute)
18
19			import pandas as pd
20
21			@data_manager.backend.engine.dec()
22			def observations(file_path):
23			return pd.read_json(file_path, lines=True)
24
25			from so_magic.data.encoding import NominalAttributeEncoder
26
27
28			class OneHotEncoder(NominalAttributeEncoder):
29
30			def encode(self, args, *kwargs):
31			datapoints = args[0]
32			attribute = args[1]
33			prefix_separator = '_'
34			dataframe = pd.get_dummies(datapoints.observations[attribute], prefix=attribute, prefix_sep='_', drop_first=False)
35			self.values_set = [x.replace(f'{attribute}{prefix_separator}', '') for x in dataframe.columns]
36			self.columns = [x for x in dataframe.columns]
37			return dataframe
38
39
40			@mega_cmd_factory.build_command_prototype()
41			def one_hot_encoding(_data_manager, _datapoints, _attribute):
42			dataframe = OneHotEncoder().encode(_datapoints, _attribute)
43			_data_manager.datapoints.observations = pd.concat([_data_manager.datapoints.observations, dataframe], axis=1)
44
45
46			@mega_cmd_factory.build_command_prototype()
47			def select_variables(_data_manager, variables):
48			_data_manager.feature_manager.feature_configuration = variables
49
50
51			import numpy as np
52			from functools import reduce
53
54			class OneHotListEncoder(NominalAttributeEncoder):
55			binary_transformer = {True: 1.0, False: 0.0}
56
57			def encode(self, args, *kwargs):
58			datapoints = args[0]
59			attribute = args[1]
60			self.values_set = reduce(lambda i, j: set(i).union(set(j)), [_ for _ in datapoints.observations[attribute] if type(_) == list])
61			self.columns = [_ for _ in self.values_set]
62			return pd.DataFrame([self._yield_vector(datarow, attribute) for index, datarow in datapoints.iterrows()], columns=self.columns)
63
64			def _yield_vector(self, datarow, attribute):
65			decision = {True: self._encode, False: self._encode_none}
66			return decision[type(datarow[attribute]) == list](datarow, attribute)
67
68			def _encode(self, datarow, attribute):
69			return [OneHotListEncoder.binary_transformer[column in datarow[attribute]] for column in self.columns]
70
71			def _encode_none(self, datarow, attribute):
72			return [0.0] * len(self.values_set)
73
74			@mega_cmd_factory.build_command_prototype()
75			def one_hot_encoding_list(_data_manager, _datapoints, _attribute):
76			_data_manager.datapoints.observations[_attribute].fillna(value=np.nan, inplace=True)
77			dataframe = OneHotListEncoder().encode(_datapoints, _attribute)
78			_data_manager.datapoints.observations = pd.concat([_data_manager.datapoints.observations, dataframe],
79			axis=1)
80
81			return data_manager
82

boromir674 / so-magic

Push — mpeta ( ff9ea9...522f25 )

so_magic.data.init_data_manager() B

Complexity

Size

Duplication

Importance

How to fix Long Method

Long Method

Duplication Side-by-Side

Filter issues like