annif.simplemma_util - Code Metrics - Inspection of "refactor: extract detect_language into a utility m..." - NatLibFi/Annif - Measure and Improve Code Quality continuously with Scrutinizer

Passed

Push — issue799-language-detection-cl... ( 5d9c08...2c0665 )

by Osma

created 2024-09-17 12:00 UTC

annif.simplemma_util A

↳ Parent: Project

Complexity

Total Complexity

Size/Duplication

Total Lines	24
Duplicated Lines	0 %

Importance

Changes

Metric	Value
eloc	15
dl	0
loc	24
rs	10
c	0
b	0
f	0
wmc	3

2 Functions

Rating	Name	Duplication	Size	Complexity
A	get_language_detector()	0	2	1
A	detect_language()	0	4	2

"""Wrapper code for using Simplemma functionality in Annif"""

from typing import Dict, Tuple, Union

from simplemma import LanguageDetector, Lemmatizer
from simplemma.strategies import DefaultStrategy
from simplemma.strategies.dictionaries import DefaultDictionaryFactory

LANG_CACHE_SIZE = 5  # How many language dictionaries to keep in memory at once (max)

_dictionary_factory = DefaultDictionaryFactory(cache_max_size=LANG_CACHE_SIZE)
_lemmatization_strategy = DefaultStrategy(dictionary_factory=_dictionary_factory)
lemmatizer = Lemmatizer(lemmatization_strategy=_lemmatization_strategy)


def get_language_detector(lang: Union[str, Tuple[str, ...]]) -> LanguageDetector:
    return LanguageDetector(lang, lemmatization_strategy=_lemmatization_strategy)


def detect_language(text: str, languages: Tuple[str, ...]) -> Dict[str, float]:
    detector = get_language_detector(languages)
    proportions = detector.proportion_in_each_language(text)
    return dict(sorted(proportions.items(), key=lambda x: x[1], reverse=True))


1			"""Wrapper code for using Simplemma functionality in Annif"""
2
3			from typing import Dict, Tuple, Union
4
5			from simplemma import LanguageDetector, Lemmatizer
6			from simplemma.strategies import DefaultStrategy
7			from simplemma.strategies.dictionaries import DefaultDictionaryFactory
8
9			LANG_CACHE_SIZE = 5 # How many language dictionaries to keep in memory at once (max)
10
11			_dictionary_factory = DefaultDictionaryFactory(cache_max_size=LANG_CACHE_SIZE)
12			_lemmatization_strategy = DefaultStrategy(dictionary_factory=_dictionary_factory)
13			lemmatizer = Lemmatizer(lemmatization_strategy=_lemmatization_strategy)
14
15
16			def get_language_detector(lang: Union[str, Tuple[str, ...]]) -> LanguageDetector:
17			return LanguageDetector(lang, lemmatization_strategy=_lemmatization_strategy)
18
19
20			def detect_language(text: str, languages: Tuple[str, ...]) -> Dict[str, float]:
21			detector = get_language_detector(languages)
22			proportions = detector.proportion_in_each_language(text)
23			return dict(sorted(proportions.items(), key=lambda x: x[1], reverse=True))
24

NatLibFi / Annif

Push — issue799-language-detection-cl... ( 5d9c08...2c0665 )

annif.simplemma_util A

Complexity

Size/Duplication

Importance

2 Functions

Duplication Side-by-Side

Filter issues like