klib.tests.test_util - Code Metrics - Inspection of "drop duplicates and validate inputs" - akanz1/klib - Measure and Improve Code Quality continuously with Scrutinizer

Passed

Push — master ( cc6bfd...4f98db )

by Andreas

created 2020-04-16 08:57 UTC

klib.tests.test_util A

↳ Parent: Project

Complexity

Total Complexity

Size/Duplication

Total Lines	109
Duplicated Lines	0 %

Importance

Changes

Metric	Value
eloc	77
dl	0
loc	109
rs	10
c	0
b	0
f	0
wmc	21

10 Methods

Rating	Name	Size	Complexity
A	Test__missing_vals.test_mv_total()	5	1
A	Test__drop_duplicates.test_drop_dupl()	7	1
A	Test__drop_duplicates.setUpClass()	9	1
A	Test__missing_vals.test_mv_cols_ratio()	9	3
A	Test__missing_vals.test_mv_cols()	5	2
A	Test__missing_vals.test_mv_rows()	5	2
A	Test__missing_vals.setUpClass()	16	1
A	Test__validate_input.test__validate_input_0_1()	6	3
A	Test__missing_vals.test_mv_rows_ratio()	9	3
A	Test__validate_input.test__validate_input_bool()	8	4

import numpy as np
import pandas as pd
import unittest
from klib.utils import _drop_duplicates
from klib.utils import _missing_vals
from klib.utils import _validate_input_0_1
from klib.utils import _validate_input_bool

if __name__ == '__main__':
    unittest.main()


class Test__drop_duplicates(unittest.TestCase):

    @classmethod
    def setUpClass(cls):
        cls.data_dupl_df = pd.DataFrame([[pd.NA, pd.NA, pd.NA, pd.NA],
                                         [1, 2, 3, 4],
                                         [1, 2, 3, 4],
                                         [1, 2, 3, 4],
                                         [2, 3, 4, 5],
                                         [1, 2, 3, pd.NA],
                                         [pd.NA, pd.NA, pd.NA, pd.NA]])

    def test_drop_dupl(self):
        # Test dropping of duplicate rows
        self.assertAlmostEqual(_drop_duplicates(self.data_dupl_df)[0].shape, (4, 4))
        # Test if the resulting DataFrame is equal to using the pandas method
        self.assertTrue(_drop_duplicates(self.data_dupl_df)[0].equals(self.data_dupl_df.drop_duplicates()))
        # Test number of duplicates
        self.assertEqual(len(_drop_duplicates(self.data_dupl_df)[1]), 3)


class Test__missing_vals(unittest.TestCase):

    @classmethod
    def setUpClass(cls):
        cls.data_mv_df = pd.DataFrame([[1, np.nan, 3, 4],
                                       [None, 4, 5, None],
                                       ['a', 'b', pd.NA, 'd'],
                                       [True, False, 7, pd.NaT]])

        cls.data_mv_array = np.array([[1, np.nan, 3, 4],
                                      [None, 4, 5, None],
                                      ['a', 'b', pd.NA, 'd'],
                                      [True, False, 7, pd.NaT]])

        cls.data_mv_list = [[1, np.nan, 3, 4],
                            [None, 4, 5, None],
                            ['a', 'b', pd.NA, 'd'],
                            [True, False, 7, pd.NaT]]

    def test_mv_total(self):
        # Test total missing values
        self.assertAlmostEqual(_missing_vals(self.data_mv_df)['mv_total'], 5)
        self.assertAlmostEqual(_missing_vals(self.data_mv_array)['mv_total'], 5)
        self.assertAlmostEqual(_missing_vals(self.data_mv_list)['mv_total'], 5)

    def test_mv_rows(self):
        # Test missing values for each row
        expected_results = [1, 2, 1, 1]
        for i, _ in enumerate(expected_results):
            self.assertAlmostEqual(_missing_vals(self.data_mv_df)['mv_rows'][i], expected_results[i])

    def test_mv_cols(self):
        # Test missing values for each column
        expected_results = [1, 1, 1, 2]
        for i, _ in enumerate(expected_results):
            self.assertAlmostEqual(_missing_vals(self.data_mv_df)['mv_cols'][i], expected_results[i])

    def test_mv_rows_ratio(self):
        # Test missing values ratio for each row
        expected_results = [0.25, 0.5, 0.25, 0.25]
        for i, _ in enumerate(expected_results):
            self.assertAlmostEqual(_missing_vals(self.data_mv_df)['mv_rows_ratio'][i], expected_results[i])

        # Test if missing value ratio is between 0 and 1
        for i in range(len(self.data_mv_df)):
            self.assertTrue(0 <= _missing_vals(self.data_mv_df)['mv_rows_ratio'][i] <= 1)

    def test_mv_cols_ratio(self):
        # Test missing values ratio for each column
        expected_results = [1/4, 0.25, 0.25, 0.5]
        for i, _ in enumerate(expected_results):
            self.assertAlmostEqual(_missing_vals(self.data_mv_df)['mv_cols_ratio'][i], expected_results[i])

        # Test if missing value ratio is between 0 and 1
        for i in range(len(self.data_mv_df)):
            self.assertTrue(0 <= _missing_vals(self.data_mv_df)['mv_cols_ratio'][i] <= 1)


class Test__validate_input(unittest.TestCase):

    def test__validate_input_0_1(self):
        with self.assertRaises(ValueError):
            _validate_input_0_1(-0.1, '-0.1')

        with self.assertRaises(ValueError):
            _validate_input_0_1(1.1, '1.1')

    def test__validate_input_bool(self):
        # Raises an exception if the input is not boolean
        with self.assertRaises(ValueError):
            _validate_input_bool('True', None)
        with self.assertRaises(ValueError):
            _validate_input_bool(None, None)
        with self.assertRaises(ValueError):
            _validate_input_bool(1, None)


1			import numpy as np
2			import pandas as pd
3			import unittest
4			from klib.utils import _drop_duplicates
5			from klib.utils import _missing_vals
6			from klib.utils import _validate_input_0_1
7			from klib.utils import _validate_input_bool
8
9			if __name__ == '__main__':
10			unittest.main()
11
12
13			class Test__drop_duplicates(unittest.TestCase):
14
15			@classmethod
16			def setUpClass(cls):
17			cls.data_dupl_df = pd.DataFrame([[pd.NA, pd.NA, pd.NA, pd.NA],
18			[1, 2, 3, 4],
19			[1, 2, 3, 4],
20			[1, 2, 3, 4],
21			[2, 3, 4, 5],
22			[1, 2, 3, pd.NA],
23			[pd.NA, pd.NA, pd.NA, pd.NA]])
24
25			def test_drop_dupl(self):
26			# Test dropping of duplicate rows
27			self.assertAlmostEqual(_drop_duplicates(self.data_dupl_df)[0].shape, (4, 4))
28			# Test if the resulting DataFrame is equal to using the pandas method
29			self.assertTrue(_drop_duplicates(self.data_dupl_df)[0].equals(self.data_dupl_df.drop_duplicates()))
30			# Test number of duplicates
31			self.assertEqual(len(_drop_duplicates(self.data_dupl_df)[1]), 3)
32
33
34			class Test__missing_vals(unittest.TestCase):
35
36			@classmethod
37			def setUpClass(cls):
38			cls.data_mv_df = pd.DataFrame([[1, np.nan, 3, 4],
39			[None, 4, 5, None],
40			['a', 'b', pd.NA, 'd'],
41			[True, False, 7, pd.NaT]])
42
43			cls.data_mv_array = np.array([[1, np.nan, 3, 4],
44			[None, 4, 5, None],
45			['a', 'b', pd.NA, 'd'],
46			[True, False, 7, pd.NaT]])
47
48			cls.data_mv_list = [[1, np.nan, 3, 4],
49			[None, 4, 5, None],
50			['a', 'b', pd.NA, 'd'],
51			[True, False, 7, pd.NaT]]
52
53			def test_mv_total(self):
54			# Test total missing values
55			self.assertAlmostEqual(_missing_vals(self.data_mv_df)['mv_total'], 5)
56			self.assertAlmostEqual(_missing_vals(self.data_mv_array)['mv_total'], 5)
57			self.assertAlmostEqual(_missing_vals(self.data_mv_list)['mv_total'], 5)
58
59			def test_mv_rows(self):
60			# Test missing values for each row
61			expected_results = [1, 2, 1, 1]
62			for i, _ in enumerate(expected_results):
63			self.assertAlmostEqual(_missing_vals(self.data_mv_df)['mv_rows'][i], expected_results[i])
64
65			def test_mv_cols(self):
66			# Test missing values for each column
67			expected_results = [1, 1, 1, 2]
68			for i, _ in enumerate(expected_results):
69			self.assertAlmostEqual(_missing_vals(self.data_mv_df)['mv_cols'][i], expected_results[i])
70
71			def test_mv_rows_ratio(self):
72			# Test missing values ratio for each row
73			expected_results = [0.25, 0.5, 0.25, 0.25]
74			for i, _ in enumerate(expected_results):
75			self.assertAlmostEqual(_missing_vals(self.data_mv_df)['mv_rows_ratio'][i], expected_results[i])
76
77			# Test if missing value ratio is between 0 and 1
78			for i in range(len(self.data_mv_df)):
79			self.assertTrue(0 <= _missing_vals(self.data_mv_df)['mv_rows_ratio'][i] <= 1)
80
81			def test_mv_cols_ratio(self):
82			# Test missing values ratio for each column
83			expected_results = [1/4, 0.25, 0.25, 0.5]
84			for i, _ in enumerate(expected_results):
85			self.assertAlmostEqual(_missing_vals(self.data_mv_df)['mv_cols_ratio'][i], expected_results[i])
86
87			# Test if missing value ratio is between 0 and 1
88			for i in range(len(self.data_mv_df)):
89			self.assertTrue(0 <= _missing_vals(self.data_mv_df)['mv_cols_ratio'][i] <= 1)
90
91
92			class Test__validate_input(unittest.TestCase):
93
94			def test__validate_input_0_1(self):
95			with self.assertRaises(ValueError):
96			_validate_input_0_1(-0.1, '-0.1')
97
98			with self.assertRaises(ValueError):
99			_validate_input_0_1(1.1, '1.1')
100
101			def test__validate_input_bool(self):
102			# Raises an exception if the input is not boolean
103			with self.assertRaises(ValueError):
104			_validate_input_bool('True', None)
105			with self.assertRaises(ValueError):
106			_validate_input_bool(None, None)
107			with self.assertRaises(ValueError):
108			_validate_input_bool(1, None)
109

akanz1 / klib

GitHub Access Token became invalid

Push — master ( cc6bfd...4f98db )

klib.tests.test_util A

Complexity

Size/Duplication

Importance

10 Methods

Duplication Side-by-Side

Filter issues like