Diglett::getTexts() - Code Metrics - Inspection of "Add fetching urls to Diglett" - jerodev/diglett - Measure and Improve Code Quality continuously with Scrutinizer

Passed

Push — master ( b88b49...ad326c )

by Jeroen

created 2018-11-02 14:13 UTC

Diglett::getTexts() A

↳ Parent: Diglett

Complexity

Conditions	2
Paths	2

Size

Total Lines	9
Code Lines	4

Duplication

Lines	0
Ratio	0 %

Importance

Changes

Metric	Value
cc	2
eloc	4
nc	2
nop	1
dl	0
loc	9
rs	10
c	0
b	0
f	0

<?php

namespace Jerodev\Diglett;

use Symfony\Component\DomCrawler\Crawler;

class Diglett
{
    /**
     *  The Symfony DomCrawler to work with.
     *
     *  @var Crawler
     */
    private $crawler;

    /**
     *  The css selector parser
     *
     *  @var CssFilterParser
     */
    private $cssFilterParser;

    /**
     *  Create a diglett instance from a Symfony Crawler.
     *
     *  @param Crawler
     *  @param array $cssFilter An array of extra ICssFilterl classes to filter on
     */
    public function __construct(Crawler $crawler, array $cssFilters = [])
    {
        $this->crawler = $crawler;
        $this->cssFilterParser = new CssFilterParser($cssFilters);
    }

    /**
     *  Get the underlying crawler object
     *
     *  @return Crawler
     */
    public function getCrawler(): Crawler
    {
        return $this->crawler;
    }

    /**
     *  Use special css selectors to filter on the current node collection
     *
     *  @param string $selector
     *  @return Crawler|null
     */
    public function filter(string $selector): ?Crawler
    {
        $parsedSelector = $this->cssFilterParser->parse($selector);

        $crawler = $this->getCrawler();
        foreach ($parsedSelector as $part)
        {
            $crawler = $crawler->filter($part['selector']);

            foreach ($part['functions'] as $function)
            {
                $crawler = $function->filterNodes($crawler);
                if ($crawler === null)
                {
                    return null;
                }
            }

            if (empty($crawler) || $crawler->count() === 0)
            {
                break;
            }
        }

        return $crawler;
    }


    /**
     *  Use special css selectors to fetch several values
     *
     *  @param array $selectors
     *  @return array
     */
    public function getTexts(array $selectors): array
    {
        $results = [];
        foreach ($selectors as $key => $value)
        {
            $results[$key] = $this->getText($value);
        }

        return $results;
    }

    /**
     *  Get the value for a single special css selector
     *
     *  @param string $selector
     *  @return string|null
     */
    public function getText(string $selector): ?string
    {
        $attribute = null;
        $selector = preg_replace_callback(
            '/\{(.*?)\}$/',
            function ($matches) use (&$attribute) {
                $attribute = $matches[1] ?? null;
            },
            $selector
        );

        $crawler = $this->filter($selector);
        if ($crawler === null || $crawler->count() === 0)
        {
            return null;
        }

        return $attribute === null ? $crawler->text() : $crawler->attr($attribute);
    }

    /**
     *  Fetch urls from the selected nodes (a[href], img[src])
     */
    public function getUrls(string $selector): array
    {
        $crawler = $this->filter($selector);
        if ($crawler === null || $crawler->count() === 0)
        {
            return [];
        }

        $absolute = implode('/', array_slice(preg_split('/\//', $crawler->getUri()), 0, 3)) . '/';
        $absolute = implode('/', array_slice(/** @scrutinizer ignore-type */ preg_split('/\//', $crawler->getUri()), 0, 3)) . '/';
        $relative = substr(preg_replace('/\?.*?$/', '', $crawler->getUri()), 0, strrpos($crawler->getUri(), '/') + 1);

        return $crawler
            ->reduce(function ($node) {
                return in_array(strtolower($node->nodeName()), ['a', 'img']);
            })
            ->each(function ($node) use ($absolute, $relative) {

                $url = null;
                switch (strtolower($node->nodeName()))
                {
                    case 'a':
                        $url = $node->attr('href');
                        break;

                    case 'img':
                        $url = $node->attr('src');
                        break;
                }

                if (preg_match('/^https?:\/\//', $url) !== 1)
                {
                    if ($url[0] === '/')
                        $url = $absolute . ltrim($url, '/');
                    else
                        $url = $relative . ltrim($url, '/');
                }

                return $url;

            });
    }
}


jerodev / diglett

Push — master ( b88b49...ad326c )

Diglett::getTexts() A

Complexity

Size

Duplication

Importance

Duplication Side-by-Side

Filter issues like