Quantcast
Channel: Business Intelligence y Big Data: ¡Aprende Gratis sobre Analytics!
Viewing all 575 articles
Browse latest View live

Pentaho 8.1 ya esta aquí, conoce las novedades!!

$
0
0


Pentaho 8.1 ya esta disponible (aquí para descargar de Sourceforge) y que mejor que Pedro Alves para contarnos. Os dejamos las principales novedades y en que versión (EE o CE) están disponibles:

Cloud Google Storage (EE)

Google BigQuery – JDBC Support  (EE/CE)

Google BigQuery – Bulk Loader  (EE)


Google Drive  (EE/CE)

Analytics over BigQuery  (EE/CE, depending on the tool used)

Big Data / Adaptive Execution Layer (AEL) Improvements 

Bigger and Better (EE/CE)

Sub Transformation support (EE/CE)

Big Data formats: Added support for Orc (EE/CE)

Worker Nodes (EE)

New Streaming Datasources: MQTT, and JMS (Active MQ / IBM MQ) (EE/CE)


Safe Stop (EE/CE)

Streaming Dataservices (EE/CE)

CTools and Streaming Visualizations (EE/CE)

Time Series Visualizations (EE/CE)

Data Exploration Tool Updates (EE)


 Additional updates:

     Salesforce connector API update (API version 41)
     Splunk connection updated to version 7
     Mongo version updated to 3.6.3 driver (supporting 3.4 and 3.6)
     Cassandra version updated to support version 3.1 and Datastax 5.1
     PDI repository browser performance updates, including lazy loading
     Improvements on the Text and Hadoop file outputs, including limit and control file handling
     Improved logging by removing auto-refresh from the kettle logging servlet
     Admin can empty trash folder of other users on PUC
     Clear button in PDI step search in spoon
     Override JDBC driver class and URL for a connection
     Suppressed the Pentaho ‘session expired’ pop-up on SSO scenarios, redirecting to the proper login page
     Included the possibility to schedule generation of reports with a timestamp to avoid overwriting content

In summary (and wearing my marketing hat) with Pentaho 8.1 you can:

      Deploy in hybrid and multi-cloud environments with comprehensive support for Google Cloud Platform, Microsoft Azure and AWS for both data integration and analytics
      Connect, process and visualize streaming data, fromMQTT, JMS, and IBM MQ message queues and gain insights from time series visualizations
      Get better platform performance and increase user productivity with improved logging, additional lineage information, and faster repository access

Bloom, Graph Visualisation y Discovery tool para Neo4j

$
0
0

Muy interesante la presentación de la nueva herramienta de visualización para Neo4J, Bloom, realmente espectacular

Además, tienes otras posibilidades de visualización para Neo4J

Aquí podéis ver una Demo usando Neo4J con los Panama Papers y para cálculo de distancias, en este caso usando Linkurious

Bloom visually reveals the value of data relationships and identifies connectedness paths between interesting clusters and nodes. These situations often include:


  • Identifying the relationship (or hidden path) between individuals
  • Connecting people to activities, locations, compaines, devices and other objects
  • Demonstrating to management the innovative impact of graphs
  • Illustrating the context and paths of graph designs and Cypher queries
Bloom gives you the ability to:
  • Inspect the animated graph by panning and zooming across the visible domain
  • Snapshot scenes using a screen capture tool and paste to publish
  • Select a node and toggle to understand properties and adjacent nodes based on its relationships
  • Edit nodes, relationships and properties
  • Pick a template and view the metadata perspective of that template against your data
  • Initiate queries within the search box based on suggestions and template phrases
  • Advance the scene and choose a new query to execute in the search box
  • Save your history including “hints” that inform the illustration so Bloom remembers where you left off

New Data Connectors in LinceBI

$
0
0


LinceBI, an open source based Big Data Analytics solution, with a free license model with professional support, recently increase the number of data connectors

Now, you have a complete set of data connectors in order to make easier data injection. 

Recently, we give you some details about LinceBi functionalities

Even more, it includes a predefined industry oriented models, dashboads, KPIS, reports and Analysis... so deploy a 'ready to use' Analytics solution is very easy

Las 10 mejores charlas TED de Analisis de Datos

$
0
0

Data: Languages in the world

Las mejores APIs para Machine Learning

$
0
0

Webinar STPivot4 Open Source for Pentaho ya disponible

$
0
0

Mas de 100 inscritos al Webinar sobre Business Intelligence Open Source, centrado en el uso de la herramienta OLAP, STPivot4, disponible en Github y en el Marketplace de Pentaho

Os dejamos el video completo del Webinar realizado





Este pasado jueves 24 de Mayo hemos tenido un Webinar para conocer y sacar el mejor partido a STPivot4, la solución open source, analytics OLAP sobre Pentaho, que también puedes usar sobre ecosistemas Big Data como Apache Kylin.

Toda la info y registro de STPivot4

STPivot puede ser descargado gratuitamente desde Github y desde el Marketplace de Pentaho







Las 20 mejores librerias para Data Scientists en R


Nuestro mundo en datos

$
0
0

Para todos los que consideran que la mejor forma de estar informados y opinar con criterio de historia, economía y política es basarse en datos, esta es tu web: Our World in Data




Aprender procesos ETL con Pentaho Data Integration para Big Data

$
0
0








Una de las grandes ventajas de Pentaho Data Integration, es la forma en que facilita y ayuda a orquestar trabajos en entornos Big Data. 

Nuestros compañeros de stratebi, especialistas en formación eminentemente práctica y proyectos Big Data Analytics nos muestran algunos ejemplos de algunos de los temas de sus formaciones




También podéis ver algunas de sus aplicaciones online con las arquitecturas que lo soportan

Estos son parte de los ejercicios propuestos en este capítulo y que serás capaz de realizar son:

Ejercicio 1: Escribir archivos en HDFS en el clúster
Ejercicio 2: Leer archivos desde HDFS
Ejercicio 3: Leer datos desde Hive con PDI



Ejercicio 4: Movimiento de archivos con Jobs de PDI
Ejercicio 5: Transformación de Hive de creación de bases de datos
Ejercicio 6: Pasar archivos de una base de datos Oracle a una base de datos de Hive ORC


















Top Business Intelligence Tools comparison

$
0
0

This complete, 300 pages study, is a comprehensive comparative of some of the most important Business Intelligence tools (this study will include new tools in next editions). 

Has been created by analytics experts Stratebi. This document include in depth features, modules and architecture analysis, considering:

- PowerBI
- Tableau
- Qlikview
- Pentaho
- SAS
- Information Builders
- Amazon Quicksight

A very complete study for all business intelligence interested who are evaluating to use some of this tools


La Tabla Periodica interactiva del Machine Learning

$
0
0


Que gran visualización y que útil, pincha en la tabla periódica para descubrirlo

Big Data para PowerBI

$
0
0


Power BI es un conjunto de herramientas Business Intelligence (BI) desarrolladas por Microsoft. De reciente aparición, gracias a su simplicidad y potencia se ha hecho un un hueco entre las grandes del mercado como Tableau, Pentaho o Microstrategy. 
Al igual que estas últimas, implementa la filosofía de Autoservicio para el usuario final (Self Service BI) llevada al extremo de la sencillez, pero con un gran número de características como el desarrollo de cuadros de mando (denominados informes en Power BI), la compartición web o dentro de la organización, un gran número de gráficos incluyendo gráficos con análisis estadístico (ej. forecasting página 2 demo), conexión a fuentes relacionales y Big Data, exploración en lenguaje natural (Q & A), soporte para ejecutar código R y visualizar resultados, o pre procesamiento de datos (ETL).
Las características anteriores se implementan repartidas en las distintas aplicaciones. Power BI Desktop es la herramienta de cliente para la exploración, transformación y diseño de visualizaciones a partir de los datos. Se trata de una herramienta completamente gratuita, que dispone de conexiones a las fuentes Big Data y relacionales más usadas. Aunque para algunas fuentes dispone de un conector específico, en el caso de Apache Kylin hemos de hacer uso del conector ODBC disponible en su web
Tras la conexión, se genera un extracto de los datos. A partir de este momento los pasos para la creación de nuestro cuadro de mando han sido i) la definición del modelo de datos, ii) la aplicación de alguna transformación (ej. formato de fecha), iii) la definición de métricas calculadas (ej. tasa de éxito) o jerarquías sobre las dimensiones (ej. tabla OLAP página 2 demo), y, por último, iv) la creación del cuadro de mando demo, compuesto por dos páginas (selector en barra inferior).
Una vez hemos diseñado y guardado nuestro cuadro de mando con Power BI Desktop, llega el momento de compartirlo. Para ello hemos creado una cuenta de Power BI Service en su alternativa gratuita, pues en esta herramienta sí dispone de versiones Pro y Premium, ambas de pago. Aunque estas versiones disponen de conexión directa a algunas bases de datos como SQL Server (con o sin Analysis Services), Oracle o Cloudera Impala, para el resto de conexiones, como la conexión ODBC con Kylin, es necesario publicar el extracto de los datos, que se refresca de forma manual (versión gratuita) o programada (Pro y Premium).
Además de Power BI Desktop y Power BI Service (Free, Pro y Premium), existen otras herramientas como Mobile , para el acceso a los informes desde nuestro smartphone y el trabajo colaborativo, o Embedded, para componer nuestras propias aplicaciones, portales web, Share Point a partir de las visualizaciones desarrolladas con Power BI.
Sí estas interesado en hacer tu proyecto con esta tecnología no dudes en solicitar presupuesto en StrateBI, Partner de Microsoft PowerBI con larga experiencia

Aquí, (Ver Demo) puedes ver un ejemplo combinado de PowerBI on open source based Business Intelligence solutions, como LinceBI, de forma que puedes tener una solución completa BI, que cubre todos los módulos y necesidades

- Adhoc Reporting
- Predefined Dashboards
- OLAP Analysis
- Adhoc Dashboarding
- Scorecards
- Forecasts

Mas info:





PowerBI for Big Data

Arquitecture:
En el caso de estudio que presentamos (Ver Demo), hacemos uso de las herramientas Apache Kylin , Power BI Desktop y Power BI Servicio para dar soporte al análisis mediante Cuadros de Mando de un almacén de datos (Data Warehouse, DW) que contiene datos con características Big Data (Volumen, Velocidad y Variedad).
Se trata de un gran Volumen de datos académicos, relativos a los últimos 15 años de una universidad de gran tamaño. A partir de esta fuente de datos, se ha diseñado un modelo multidimensional para el análisis del rendimiento académico. En él contamos con unos 100 millones de medidas cómo los créditos relativos a asignaturas aprobadas, suspendidas o matriculadas. Estos hechos se analizan en base a distintas dimensiones o contextos de análisis, como el Sexo, la Calificación o el Año Académico.
Dado que este Volumen de datos es demasiado grande para analizarlo con un rendimiento aceptable con los sistemas OLAP (R-OLAP y M-OLAP) tradicionales, hemos decidido probar la tecnología Apache Kylin, la cual promete tiempos de respuesta de unos pocos segundos para Volúmenes que pueden superar los 10 billones de filas en la tabla de hechos o medidas.
Las tecnologías del entorno Hadoop fundamentales para Kylin son Apache Hive y Apache HBase. El almacén de datos (Data Warehouse, DW) se crea en forma de modelo estrella y se mantiene en Apache Hive. A partir de este modelo y mediante la definición de un modelo de metadatos del cubo OLAP, Apache Kylin, mediante un proceso offline, crea un cubo multidimensional (MOLAP) en HBase. A partir de este momento, Kylin permite hacer consultas sobre el mismo a través de su interfaz SQL, también accesible a través de conectores J/ODBC.
Por último, para hacer posible la exploración de los datos del cubo de Kylin mediante lenguaje SQL y la creación de cuadros de mando que podamos compartir con los usuarios finales de los datos, hemos hecho uso de las herramientas Power BI Desktop y Power BI Service.
En primer lugar hemos usado Power BI Desktop, herramienta gratuita, para la conexión con Apache Kylin y la creación de un cuadro de mando similar al que realizamos para el ejemplo con Apache Zepelin y, también, con Tableau. La herramienta Power BI es una herramienta de Autoservicio para el usuario final (Self Service BI): facilita la creación y publicación de completos cuadros de mando a los usuarios finales de los datos, así como el modelado y transformación de los datos si es necesario.
Una vez diseñado el cuadro de mando, lo hemos publicado en la Web haciendo uso del servicio en la nube de Power BI. Para ello, es necesario la creación de un extracto o copia de los datos, que se hace de forma transparente al usuario y se sube a la nube de Power BI junto con el cuadro o cuadros de mando. En este caso hemos usado la versión gratuita, aunque también dispone de versiones Pro y Premium con características añadidas como la compartición intra organización (además de vía Web) o el refresco programado de los datos del extracto desde el origen, Apache Kylin por ODBC en nuestro caso.

'Impacto del Big Data y Advanced Analytics en España', descarga el paper

$
0
0

Muy interesante el estudio que ha realizado Esade y puedes descargar sobre el uso del Big Data y Advance Analytics en España, tema que nos encanta en TodoBI





El presente estudio nace con el objetivo de conocer el estado de adopción e impacto que está teniendo el Big Data en las empresas de nuestro país. 

Aquí podemos ver los problemas a los que se enfrentan las compañías en sus iniciativas Big Data Analytics:





Mediante un cuestionario dirigido a los responsables ejecutivos y técnicos de las mismas, se ha analizado a las compañías respecto a  cinco dimensiones:

1) Visión  estratégica  y  modelo  organizativo 
2) Inversión  y  creación  de  valor 
3) Cultura y talento



4) Infraestructura de datos
5) Prioridades a futuro



STData (versioning), for Pentaho Data Integration

$
0
0

What is STData?

STData is simple, fast and focused on collaborative development, to maintain, manage and safeguard the vision of each of the multiple ETL projects that can be done with it, enabling the versioning


What is it for?

Based on the successful open source project, Pentaho Data Integration, STData stands out for being ideal for the coordination of development teams and the execution of processes, in large and small teams, where the dependency between integration systems must be minimal.

 

What problems does it solve?

The management and coordination of data integration processes development between the members of a team, departments and even between organizations.

How does it work?

Using the database manager of your choice, STData creates and safeguards each change made to the migration processes in a centralized repository, thus providing a single view of the state of development, gaining control and tranquility throughout the evolution of the processes to be deployed.
This repository can reside in either a local environment or in the cloud.

Contact for more info: info@stratebi.com

The Timeline of Statistics (Machine Learning)

11 Consejos sobre Bad Data: el enemigo silencioso en Business Intelligece y Big Data

$
0
0



Para todos los que llevamos un tiempo en esto del Business Intelligence, Big Data, Machine Learning, Analytics... vemos que se dedica mucho tiempo a hablar de las nuevas tecnologías, casos de uso, aplicaciones, etc... pero muy poco del verdadero problema y condicionante para lograr una exitosa implementación de estas tecnologías y proyectos: el Bad Data

Nuestro colaborador Emilio Arias, de Stratebi nos da unas pautas:

Como lo reconoces?

1) Son datos imprecisos, erróneos e incompletos que provocan problemas para lleva a cabo la estrategia de la empresa

2) Implica una mala toma de decisiones y una mala ejecución de las mismas

3) El coste del 'Bad Data', según estudios de IBM, les puede suponer a las empresas, hasta un 30% de los ingresos

4) En tu compañía no usas herramientas ETL (Integración, Transformación y Carga) o las usas mal, para mejorar los procesos de adquisición, depurado y limpieza de datos. Las hay open source (Pentaho Data Integration y Talend). El coste no será problema

5) Tu información está desestructurada, sin maestros (MDM te suena a chino) e información heterogénea no integrada

6) Querrías incluir datos de redes sociales, APIs, logs, IoT, etc... pero no sabes como distinguir el 'Bad Data' del 'Smart Data'

7) Querrías aplicar 'Machine Learning', pero sabes que con datos erróneos, cualquier algoritmo, por muy ajustado que fuera, te daría resultados sin confianza

8) Cada área, departamento o especialista de tu empresa tiene su propia metodología para aplicar criterios en cuanto a identificar el 'Bad Data'. Data Governance es un sueño idealizado para tí


9) 'Si metes basura, obtendrás basura'. Este aforismo ha funcionado muy bien en Analytics durante años. El problema ahora es que no consigues diferenciar la basura del resto. Se hace urgente poner en marcha una 'Planta de tratamiento de Residuos Analíticos' en tu organización. Funciona igual, separar basura de información útil

10) Querrías convertir el 'Bad Data' en 'Smart Data', pero ni siquiera sabes si esto es factible, cómo para saber lo que te costaría (tiempo y dinero)

11) Conoces los '7 magníficos' que puedes reconocer en el  'Bad Data'?

- Te faltan datos. No hay información, donde debería haberla
- Los datos son incorrectos ('no cuadra', seguro que os suena)
- Los datos no están bien ubicados. A veces, tenemos los datos correctos en origen, pero no los ubicamos correctamente
- Errores de entrada de datos: caracteres erróneos, abreviaturas, traducciones, etc...
- Datos duplicados. No siempre tiene que ser un error, a veces es algo tan trivial como una empresa que cambia de CIF y no actualizas
- Datos no revisados o aprobados. Mucha información requiere de la revisión y aprobación por parte de los responables
- Exceso de Datos. Sí, aunque no lo consideréis, si tenéis exceso de datos, se convierten en 'Bad Data'. Querer analizar cambios de estado de un asiento contable realizados en un día concreto... no suele proporcionar 'decisiones estratégicas'

Solución? En este Portal hablamos mucho de aplicar correctamente ETL, Data Quality, AgileBI, etc... pero lo más importante es 'perseverar' en dichas iniciativas 

El Bad Data nunca se va a acabar (que lo sepáis), es como cierta contaminación que siempre aparece, pero hay formas de reducirla, anticiparse y... casi, eliminarla


Internet of Things (Timeline)

$
0
0

No dejéis de echar un vistazo a esta infografía. Muy útil!!

Analytics en el Futbol

$
0
0

Cada vez son más los equipos de fútbol, agentes, entrenadores, periodistas, inversores y aficionados que echan mano del Business Intelligence y el Big Data, para sacar el mejor partido a los datos. Ahora, tenemos innumerables fuentes de datos con la que predecir y tomar decisiones.

Os contamos un poco más, pues afortunadamente, estamos pudiendo poner en la práctica, trabajando con equipos, todo lo mencionado:

- Por un lado, si recordáis, poníamos en segundo lugar de nuestro Ranking de películas sobre Analytics a 'Moneyball', que trata precisamente de esto mismo, pero aplicado al baseball

- Estamos colaborando como profesores en el Master de 'Experto en Análisis DEPORTIVO de Datos y BIG DATA' que organiza la Universidad de Valladolid, pionero en este ámbito

- Trabajamos con un buen amigo, Paco González, responsable del Master y cuyo enfoque podéis ver en esta entrevista en el Diario AS




- En TableroFutbolero podéis ver un buen ejemplo de aplicación de Analytics al Futbol, en este caso, hecho con software libre, si quieres ver un ejemplo con Tableau o con PowerBI, aquí puedes verlos también

Estos son algunas de las fuentes de datos que puedes manejar:

- Datos de Medios de comunicacion
- Redes Sociales
- Transfermarkt
- Datos de los servicios médicos de los equipos
- Datos de entrenamientos con o sin cámaras

Datos de empresas y proveedores de datos


1.- Opta Sports --> datos cuantitativos y cualitativos  con Widgets. Oficial de la liga y muy utilizados sus Widgets en Prensa
2.- Instat --> datos cuantitativos y cualitativos
3.- Stats Prozone --> Software para el análisis en vivo y post análisis de partido . Video, datos físicos (excepto en España),
4.- Tracab --> Empresa audiovisual que graba con cámaras y proporciona los ficheros de tracking
5.- Beemray --> Empresa que mide el impacto de la publicidad de las marcas en eventos deportivos
7.- Nacsport --> Software para análisis de videos deportivos, registro manual de los eventos de un partido.
8.- Wyscout --> Plataforma online con datos de scouting
9.- Er1c sports --> herramienta de scouting
10.- Metrica Sports --> Software de análisis audiovisual 
11.- Mediacoach --> Proveedor de datos físicos (velocidades, aceleraciones, distancia recorrida)





LinceBI, the best Analytics/BigData open source based solution!!

$
0
0

As powerful as an enterprise version, with the advantages of being Open Source based. Discover LinceBI, the most complete Bussines Intelligence platform including all the functionalities you need


Dashboards
  • User friendly, templates and wizard
  • Technical skills is not mandatory
  • Link to external content
  • Browse and navigate on cascade dependency graphs
Analytic Reporting
  • PC, Tablet, Smartphone compatibility
  • Syncs your analysis with other users
  • Download information on your device
  • Make better decisions anywhere and anytime
Bursting
  • Different output formats (CSV, Excel, PDF, HTML)
  • Task scheduling to automatic execution
  • Mailing
Balance Scorecard
  • Assign customized weights to your kpis
  • Edit your data on fly or upload an excel template
  • Follow your key performance indicators
  • Visual kpis, traffic lights colours
  • Assign color coding to your threshold
  • Define your own key performance indicators
Accessibility
  • Make calculated fields on the fly
  • Explore your data on chart
  • Drill down and roll up capabilities
  • What if analysis and mailing

Adhoc Reporting
  • Build your reports easily, drag and drop
  • Models and languaje created to Business Users
  • Corporative templates to your company
  • Advanced filters
Alerts
  • Configure your threshold
  • Mapping alerts and business rules
  • Planning actions when an event happen
Check FAQs section for any question


    Viewing all 575 articles
    Browse latest View live