ChiSquare.__init__() - Code Metrics - Inspection of "chi square testing" - chen0040/pysie - Measure and Improve Code Quality continuously with Scrutinizer

Completed

Push — master ( c960ad...1964c0 )

by Xianshun

created 2017-06-15 16:16 UTC

ChiSquare.init() B

↳ Parent: ChiSquare

Complexity

Conditions

Size

Total Lines

Duplication

Lines	0
Ratio	0 %

Importance

Changes	1
Bugs	0	Features	0

Metric	Value
cc	5
c	1
b	0
f	0
dl	0
loc	26
rs	8.0894

import math

from pysie.dsl.set import TernarySearchSet, TernarySearchTrie
from pysie.stats.distributions import MeanSamplingDistribution
from pysie.stats.samples import SampleDistribution

from scipy.stats import f, chi2


class ContingencyTable(object):
    values = None
    rows = None
    columns = None

    def __init__(self):
        self.rows = TernarySearchSet()
        self.columns = TernarySearchSet()
        self.values = TernarySearchTrie()

    def set_cell(self, row_name, column_name, value):
        key = self.make_key(row_name, column_name)
        self.values.put(key, value)
        self.rows.add(row_name)
        self.columns.add(column_name)

    def get_cell(self, row_name, column_name):
        key = self.make_key(row_name, column_name)
        if not self.values.contains_key(key):
            return 0
        return self.values.get(key)

    def make_key(self, row_name, column_name):
        return row_name + '-' + column_name

    def get_row_total(self, row_name):
        column_names = self.columns.to_array()
        result = 0
        for x in column_names:
            result += self.get_cell(row_name, x)
        return result

    def get_column_total(self, column_name):
        row_names = self.rows.to_array()
        result = 0
        for x in row_names:
            result += self.get_cell(x, column_name)
        return result

    def get_total(self):
        values = self.values.values()
        result = 0
        for val in values:
            result += val
        return result


class Anova(object):
    sample = None
    individual_samples = None
    individual_sample_distributions = None
    individual_sampling_distributions = None
    overall_sample_distribution = None
    overall_sampling_distribution = None

    sum_of_squares_total = None
    sum_of_squares_group = None
    sum_of_squares_error = None

    df_group = None
    df_error = None
    df_total = None

    mean_square_group = None
    mean_square_error = None

    F = None
    p_value = None

    significance_level = None
    reject_mean_same = None

    def __init__(self, sample, significance_level=None):
        if significance_level is not None:
            self.significance_level = significance_level

        self.sample = sample
        self.individual_sampling_distributions = TernarySearchTrie()
        self.individual_sample_distributions = TernarySearchTrie()
        self.individual_samples = sample.split_by_group_id()
        for group_id in self.individual_samples.keys():
            sample_distribution = SampleDistribution(sample=self.individual_samples.get(group_id), group_id=group_id)
            sampling_distribution = MeanSamplingDistribution(sample_distribution=sample_distribution)
            self.individual_sample_distributions.put(group_id, sample_distribution)
            self.individual_sampling_distributions.put(group_id, sampling_distribution)

        self.overall_sample_distribution = SampleDistribution(sample=sample, group_id=None)
        self.overall_sampling_distribution = MeanSamplingDistribution(self.overall_sample_distribution)
        self.build()

    def build(self):
        self.sum_of_squares_total = self.overall_sample_distribution.sum_of_squares
        self.sum_of_squares_group = 0
        mean_overall = self.overall_sample_distribution.mean
        for sample_distribution_i in self.individual_sample_distributions.values():
            mean_i = sample_distribution_i.mean
            self.sum_of_squares_group += math.pow(mean_i - mean_overall, 2.0) * sample_distribution_i.sample_size
        self.sum_of_squares_error = self.sum_of_squares_total - self.sum_of_squares_group

        self.df_total = self.sample.size() - 1
        self.df_group = self.individual_samples.size() - 1
        self.df_error = self.df_total - self.df_group

        self.mean_square_error = self.sum_of_squares_error / self.df_error
        self.mean_square_group = self.sum_of_squares_group / self.df_group

        self.F = self.mean_square_group / self.mean_square_error
        self.p_value = 1 - f.cdf(self.F, self.df_group, self.df_error)

        if self.significance_level is not None:
            self.reject_mean_same = self.p_value >= self.significance_level

    def will_reject(self, significance_level):

        return self.p_value < significance_level


class ChiSquare(object):
    chiSq = None
    sample = None
    p_value = None
    df = None
    significance_level = None

    def __init__(self, sample, significance_level=None):

        self.sample = sample
        self.significance_level = significance_level

        table = ContingencyTable()
        for i in range(sample.size()):
            row = sample.get(i)
            row_name = row.label
            column_name = row.group_id
            table.set_cell(row_name, column_name, table.get_cell(row_name, column_name) + 1)

        total = table.get_total()
        self.chiSq = 0
        for row in table.rows.to_array():
            for column in table.columns.to_array():
                expected = table.get_row_total(row) * table.get_column_total(column) / total
                observed = table.get_cell(row, column)
                self.chiSq += math.pow(observed - expected, 2) / expected

        self.df = (table.rows.size() - 1) * (table.columns.size() - 1)

        self.p_value = 1 - chi2.cdf(self.chiSq, self.df)

        if self.significance_level is not None:
            self.reject_mean_same = self.p_value >= self.significance_level

    def will_reject(self, significance_level):
        return self.p_value < significance_level


1			import math
2
3			from pysie.dsl.set import TernarySearchSet, TernarySearchTrie
4			from pysie.stats.distributions import MeanSamplingDistribution
5			from pysie.stats.samples import SampleDistribution
6
7			from scipy.stats import f, chi2
8
9
10			class ContingencyTable(object):
11			values = None
12			rows = None
13			columns = None
14
15			def __init__(self):
16			self.rows = TernarySearchSet()
17			self.columns = TernarySearchSet()
18			self.values = TernarySearchTrie()
19
20			def set_cell(self, row_name, column_name, value):
21			key = self.make_key(row_name, column_name)
22			self.values.put(key, value)
23			self.rows.add(row_name)
24			self.columns.add(column_name)
25
26			def get_cell(self, row_name, column_name):
27			key = self.make_key(row_name, column_name)
28			if not self.values.contains_key(key):
29			return 0
30			return self.values.get(key)
31
32			def make_key(self, row_name, column_name):
33			return row_name + '-' + column_name
34
35			def get_row_total(self, row_name):
36			column_names = self.columns.to_array()
37			result = 0
38			for x in column_names:
39			result += self.get_cell(row_name, x)
40			return result
41
42			def get_column_total(self, column_name):
43			row_names = self.rows.to_array()
44			result = 0
45			for x in row_names:
46			result += self.get_cell(x, column_name)
47			return result
48
49			def get_total(self):
50			values = self.values.values()
51			result = 0
52			for val in values:
53			result += val
54			return result
55
56
57			class Anova(object):
58			sample = None
59			individual_samples = None
60			individual_sample_distributions = None
61			individual_sampling_distributions = None
62			overall_sample_distribution = None
63			overall_sampling_distribution = None
64
65			sum_of_squares_total = None
66			sum_of_squares_group = None
67			sum_of_squares_error = None
68
69			df_group = None
70			df_error = None
71			df_total = None
72
73			mean_square_group = None
74			mean_square_error = None
75
76			F = None
77			p_value = None
78
79			significance_level = None
80			reject_mean_same = None
81
82			def __init__(self, sample, significance_level=None):
83			if significance_level is not None:
84			self.significance_level = significance_level
85
86			self.sample = sample
87			self.individual_sampling_distributions = TernarySearchTrie()
88			self.individual_sample_distributions = TernarySearchTrie()
89			self.individual_samples = sample.split_by_group_id()
90			for group_id in self.individual_samples.keys():
91			sample_distribution = SampleDistribution(sample=self.individual_samples.get(group_id), group_id=group_id)
92			sampling_distribution = MeanSamplingDistribution(sample_distribution=sample_distribution)
93			self.individual_sample_distributions.put(group_id, sample_distribution)
94			self.individual_sampling_distributions.put(group_id, sampling_distribution)
95
96			self.overall_sample_distribution = SampleDistribution(sample=sample, group_id=None)
97			self.overall_sampling_distribution = MeanSamplingDistribution(self.overall_sample_distribution)
98			self.build()
99
100			def build(self):
101			self.sum_of_squares_total = self.overall_sample_distribution.sum_of_squares
102			self.sum_of_squares_group = 0
103			mean_overall = self.overall_sample_distribution.mean
104			for sample_distribution_i in self.individual_sample_distributions.values():
105			mean_i = sample_distribution_i.mean
106			self.sum_of_squares_group += math.pow(mean_i - mean_overall, 2.0) * sample_distribution_i.sample_size
107			self.sum_of_squares_error = self.sum_of_squares_total - self.sum_of_squares_group
108
109			self.df_total = self.sample.size() - 1
110			self.df_group = self.individual_samples.size() - 1
111			self.df_error = self.df_total - self.df_group
112
113			self.mean_square_error = self.sum_of_squares_error / self.df_error
114			self.mean_square_group = self.sum_of_squares_group / self.df_group
115
116			self.F = self.mean_square_group / self.mean_square_error
117			self.p_value = 1 - f.cdf(self.F, self.df_group, self.df_error)
118
119			if self.significance_level is not None:
120			self.reject_mean_same = self.p_value >= self.significance_level
121
122			def will_reject(self, significance_level):
123
124			return self.p_value < significance_level
125
126
127			class ChiSquare(object):
128			chiSq = None
129			sample = None
130			p_value = None
131			df = None
132			significance_level = None
133
134			def __init__(self, sample, significance_level=None):
135
136			self.sample = sample
137			self.significance_level = significance_level
138
139			table = ContingencyTable()
140			for i in range(sample.size()):
141			row = sample.get(i)
142			row_name = row.label
143			column_name = row.group_id
144			table.set_cell(row_name, column_name, table.get_cell(row_name, column_name) + 1)
145
146			total = table.get_total()
147			self.chiSq = 0
148			for row in table.rows.to_array():
149			for column in table.columns.to_array():
150			expected = table.get_row_total(row) * table.get_column_total(column) / total
151			observed = table.get_cell(row, column)
152			self.chiSq += math.pow(observed - expected, 2) / expected
153
154			self.df = (table.rows.size() - 1) * (table.columns.size() - 1)
155
156			self.p_value = 1 - chi2.cdf(self.chiSq, self.df)
157
158			if self.significance_level is not None:
159			self.reject_mean_same = self.p_value >= self.significance_level
160
161			def will_reject(self, significance_level):
162			return self.p_value < significance_level
163

chen0040 / pysie

Push — master ( c960ad...1964c0 )

ChiSquare.__init__() B

Complexity

Size

Duplication

Importance

Duplication Side-by-Side

Filter issues like

ChiSquare.init() B