Quantcast
Channel: Business Intelligence y Big Data: ¡Aprende Gratis sobre Analytics!
Viewing all 575 articles
Browse latest View live

Mejorando la usabilidad para grandes consultas de STPivot (Pentaho)

$
0
0


Cuando manejamos cubos multidimensionales, aunque los usuarios finales tienen ahora (ver videos de todas las funcionalidades), muchas posibilidades para realizar filtros avanzados, guardar selecciones y depurar los resultados de sus consultas, a veces sucede que el número de registros a devolver es muy grande y puede que el sistema no responda.

Por ello, hemos incluido en STPivot sobre Mondrian OLAP (Pentaho), solución open source que forma parte de LinceBI, el precálculo de las celdas a devolver y el aviso para continuar o mejorar la consulta. Creednos, este tipo de avisos, ayuda mucho en la mejora del uso de las herramientas multidimensionales


Aviso de confirmación para renderizado masivo 

STPivot dispone de una nueva funcionalidad que le permite prever el renderizado de tablas pivotantes masivas que supongan un estrés para el navegador. 

Un navegador que se vea forzado a renderizar una cantidad de datos ingente, posiblemente sufrirá un bloqueo por overflow de memoria que le impedirá continuar el proceso. La única solución en estos casos, pasa por cerrar la pestaña del navegador; algo inadmisible en el manejo de una herramienta como STPivot.




Dado que el usuario puede no saber la cardinalidad de ciertas dimensiones del cubo, se le ofrece un punto de retorno en este tipo de casos. 

STPivot precalcula el número de celdas de la tabla a representar y muestra un aviso, en el caso de que se supere el límite establecido de 20000 líneas (pudiéndose modificar según las necesidades), indicándole el número de celdas que se pretenden representar e instando  a que se apliquen filtros más estrictos para analizar un conjunto de datos más pequeño y lógico.



El usuario tiene la opción de detener la ejecución de la petición o continuarla (desaconsejado) permitiendo una flexibilidad total en la herramienta.



Stratebi Peru en el Congreso Internacional de Innovación Tecnológico CIIT

$
0
0

STRATEBI PERU PRESENTO OFERTA ESPECIALIZADA DE SERVICIOS DE DATA ENGINIEERING EN EL CONGRESO INTERNACIONAL DE INNOVACION TECNOLOGICO CIIT PERU 2019

En el marco de la realización del Congreso Internacional de Innovación Tecnológica CIIT Perú 2019, realizado por las mas importantes empresas del área minera del país andino, Stratebi Perú presento su oferta especializado de servicios de Data Engineering ante la audiencia  especializada del congreso. 

En dicho congreso se expusieron los proyectos realizados por Stratebi España así como las herramientas tecnologicas que se ponen a disposición del sector minero peruano.
El sector minero peruano, concitó el interés de la oferta de Stratebi sobre todo porque las aplicaciones ofrecidas son Open Source y bastante innovadoras y nuevas como el uso de Kylin y de Zeppelin, en el área de IoT



Como producto de este congreso Stratebi Perú anuncio un acuerdo de cooperación con Indra Perú en del desarrollo de proyectos a nivel macro y de gobierno, y con empresas mineras.

Por otro lado también se anuncio que Stratebi España seguirá contribuyendo a la difusión y capacitación especializada en temas de BigData & Machine Learning de la mano de la Universidad de Piura.

Todo lo que necesitas saber para trabajar con Vertica Database

$
0
0

No te pierdas los videos sobre Vertica, la mejor base de datos columnar para Analytics
















Saber más:


How to create an open source Big Data Stack



Big Data Stack Sub second interactive queries, machine learning, real time processing and data visualization. Nowadays there is a lot technology that enables Big Data Processing. However, choosing the right tools for each scenario and having the know-how to use these tools properly, are very common problems in Big Data projects management. For this reason, we have proposed the Big Data Stack, a choice of tools for Big Data processing based...


Free whitepaper 'Big Data Analytics benchmark' for faster Business Intelligence performance



The use of Business Intelligence (BI) systems usually gets a very fast and interactive response when using dashboards, reports and detailed analytical queries. BI applications that meet this interactive processing requirement are known as OLAP (On-Line Analytical Processing) applications.  However, when we work with data sources with Big Data features (Volume, Variety and Velocity), our metrics tables (e.g. sales volume, units...) and those...


Workshop Big Data Analytics en Madrid y Barcelona



2018 ha sido un buen año, en el que hemos vuelto a organizar nuestros workshops sobre tecnologías Open Source aplicadas al Big Data, Analytics, OLAP y Business Intelligence, en diferentes ciudades en España, así como también en algunas ciudades en Latam (Lima, Asunción, Santiago de Chile...) Hace unas semanas, cerrábamos de la mejor de las maneras, con el Workshop Big Data OLAP realizado en Madrid, en donde se cubrió todo el aforo (algunos amigos...


Los Workshop Big Data Analytics continuan



Tras la buena acogida de nuestro primer Workshop Big Data Analytics en Barcelona, ya estamos planeando nuevas ediciones: Madrid, Sevilla y Alicante, además de Bolonia, en donde también lo presentaremos en el Pentaho Community Meetup, PCM18 Aquí tienes toda la información del Workshop Big Data Analytics  ...


Descarga Paper gratuito: Funciones avanzadas de Vertica para Machine Learning



Tenéis a vuestra disposición un paper con funciones avanzadas de Vertica para Machine Learning. Si te interesa, escríbenos y te lo mandamos Funciones de Vertica para el Machine Learning. Ya vienen con Vertica, por lo que: i), no requieren programación ni instalación,  ii), son más eficientes que otras opciones como la integración con Python/Pandas,  iii) se aplican sobre tablas o vistas,  iv) implementan los algoritmos...


Tips y Tecnicas de optimización de Vertica con Talend



Os traemos unos cuantos trucos y recomendaciones sobre dos de nuestras herramientas favoritas: Vertica y Talend Configuring Talend for Use with Vertica To configure Talend for use with Vertica, you must understand: Using Talend Components for Vertica Using the Talend SQL Builder Enabling Parallelization in Talend ...


Charla Introduccion Bases de Datos Analiticas (Vertica-MonetDB)


Si hace unos días, os dejábamos disponibles la charla de los Open Spaces sobre Real Time Big Data con Apache Storm y el de Apache Cassandra-NoSQL, hoy tenéis el video y la presentación del más que interesante de Bases de Datos Analíticas (orientadas a columnas). Estas bases de datos nos proporcionan un gran rendimiento en tiempos de consulta para grandes volúmes de datos en entornos analíticos, como son los cubos olap Si os es útil y os gusta, no dejéis de darnos feedback para continuar con nuevos materiales También disponible en slideshare: ...


Real Time Analytics, concepts and tools



We could consider three types of Real Time when we manage data and depends on each stage: 1. Real Time Processing: Is the possibility of ingest data at the time the event is produced in real live. This includes only processing step, i.e copying data from source to destiny and guarantees data to be ready for analytics You can try some online demos here Technologies: -Apache Flink -Apache Flume -Apache Kafka -Apache Spark -Apache...

14 usos que tienen las aplicaciones Business Intelligence Analytics

$
0
0

Muchas veces hablamos de herramientas, tecnologías, arquitecturas, bases de datos, etc... pero no nos detenemos tanto en los usos y aplicaciones que todas estas herramientas y tecnologías nos proporcionan, una vez que el mundo analytics ha complementado el Business Intelligence, gracias al uso masivo de datos con técnicas estadisticas y de Machine Learning

He aquí unos ejemplos:



  1. Business experiments: Business experiments, experimental design and AB testing are all techniques for testing the validity of something – be that a strategic hypothesis, new product packaging or a marketing approach. It is basically about trying something in one part of the organization and then comparing it with another where the changes were not made (used as a control group). It’s useful if you have two or more options to decide between.
  1. Visual analytics: Data can be analyzed in different ways and the simplest way is to create a visual or graph and look at it to spot patterns. This is an integrated approach that combines data analysis with data visualization and human interaction. It is especially useful when you are trying to make sense of a huge volume of data.
  2. Correlation analysis: This is a statistical technique that allows you to determine whether there is a relationship between two separate variables and how strong that relationship may be. It is most useful when you ‘know’ or suspect that there is a relationship between two variables and you would like to test your assumption.
  1. Regression analysis: Regression analysis is a statistical tool for investigating the relationship between variables; for example, is there a causal relationship between price and product demand? Use it if you believe that one variable is affecting another and you want to establish whether your hypothesis is true.
  1. Scenario analysis: Scenario analysis, also known as horizon analysis or total return analysis, is an analytic process that allows you to analyze a variety of possible future events or scenarios by considering alternative possible outcomes. Use it when you are unsure which decision to take or which course of action to pursue.
  1. Forecasting/time series analysis: Time series data is data that is collected at uniformly spaced intervals. Time series analysis explores this data to extract meaningful statistics or data characteristics. Use it when you want to assess changes over time or predict future events based on what has happened in the past.
  1. Data mining: This is an analytic process designed to explore data, usually very large business-related data sets – also known as ‘big data’ – looking for commercially relevant insights, patterns or relationships between variables that can improve performance. It is therefore useful when you have large data sets that you need to extract insights from.
  1. Text analytics: Also known as text mining, text analytics is a process of extracting value from large quantities of unstructured text data. You can use it in a number of ways, including information retrieval, pattern recognition, tagging and annotation, information extraction, sentiment assessment and predictive analytics.
  1. Sentiment analysis: Sentiment analysis, also known as opinion mining, seeks to extract subjective opinion or sentiment from text, video or audio data. The basic aim is to determine the attitude of an individual or group regarding a particular topic or overall context. Use it when you want to understand stakeholder opinion.
  1. Image analytics: Image analytics is the process of extracting information, meaning and insights from images such as photographs, medical images or graphics. As a process it relies heavily on pattern recognition, digital geometry and signal processing. Image analytics can be used in a number of ways, such as facial recognition for security purposes.
  1. Video analytics: Video analytics is the process of extracting information, meaning and insights from video footage. It includes everything that image analytics can do plus it can also measure and track behavior. You could use it if you wanted to know more about who is visiting your store or premises and what they are doing when they get there.
  1. Voice analytics: Voice analytics, also known as speech analytics, is the process of extracting information from audio recordings of conversations. This form of analytics can analyze the topics or actual words and phrases being used, as well as the emotional content of the conversation. You could use voice analytics in a call center to help identify recurring customer complaints or technical issues.
  1. Monte Carlo Simulation: The Monte Carlo Simulation is a mathematical problem-solving and risk-assessment technique that approximates the probability of certain outcomes, and the risk of certain outcomes, using computerized simulations of random variables. It is useful if you want to better understand the implications and ramifications of a particular course of action or decision.

  1. Linear programming: Also known as linear optimization, this is a method of identifying the best outcome based on a set of constraints using a linear mathematical model. It allows you to solve problems involving minimizing and maximizing conditions, such as how to maximize profit while minimizing costs. It’s useful if you have a number of constraints such as time, raw materials, etc. and you wanted to know the best combination or where to direct your resources for maximum profit.

Visto en Forbes

Extreme OLAP tutorial con Apache Kylin - Kyligence

$
0
0



Quieres aprender todo sobre Apache Kylin y Kyligence? No te pierdas estos videotutoriales. Saber más sobre Kylin (en español)
Enable Interactive Big Data Analytics of Power BI
See how fast and easy it is to analyze 10 million rows of data in Microsoft Power BI using Kyligence vs. Hive for Big Data.
Icon
Explore Dataset in Large Scale with Qlik
Learn how Kyligence, the leading intelligent Big Data OLAP platform, helps Qlik users explore and query datasets quickly at any scale.
Icon
Why Xactly chose Kyligence as a centralized data analytic platform?
See how Kyligence helped Xactly simplify data management and accelerate business value generation with its centralized Big Data analytics platform.
Icon
Accelerate BI on Big Data with Kyligence
Discover how Kyligence makes sub-second query response times on massive datasets for thousands of concurrent users a breeze.
Icon
Extreme OLAP with Apache Kylin
See how the latest version of Apache Kylin is making OLAP on Big Data faster and easier than ever before with these real use cases.
Icon
Building enterprise OLAP on Hadoop in Finance
Get an overview of Apache Kylin and Kyligence’s Big Data analytics platform that covers key enterprise features including concurrency and compatibility.
Icon
Apache Kylin Use Cases in China and Japan
Learn how Apache Kylin is being adopted in China and Japan with real use cases and best practices you can apply to your own Big Data efforts.
Icon
Kyligence Insight for Superset
Learn how to get started with Kyligence Insight for Superset and start accelerating your Big Data analytics and time to insight today.

Conoce la nueva versión de Odoo

$
0
0



Las soluciones de negocio de Odoo son cada vez más conocidas en España. Sea en las pequeñas o grandes empresas, de los más diversos sectores, utilizándose en distintas aplicaciones como CRM, Fabricación o Proyectos. 

Todos los que buscan las mejores apps para gestionar su empresas utilizan o piensan en implementar Odoo.


Para presentar las nuevas funcionalidades de la versión 12 de Odoo, estuvieron en España  los gerentes de cuentas de Odoo SA para el mercado español en las ciudades de Bilbao, Sevilla y Valencia.

Desde el punto de vista de la analítica de los datos de Odoo, nuestros amigos de Stratebi han creado Odoo Analytics:

Odoo Analytics, es la solucion que combina lo mejor de las soluciones Open Source para CRM/ERP y Business Intelligence, usando Odoo y LinceBI

Odoo es una suite de aplicaciones de gestión tanto para el mundo de la empresa como administración pública y otro tipo de organizaciones, que incluye una gama de herramientas de fácil uso para optimizar y rentabilizar los procesos.




Su objetivo es englobar en un único software todas las herramientas que necesita una organización para la operativa en todos los principales departamentos. En este sentido, Odoo nos ofrece funcionalidades que podrían encajar tanto en un software ERP como en un software CRM.



Odoo es una aplicación con una amplia trayectoria. Antes se conocía como OpenERP y ya era considerado una de las principales aplicaciones para la gestión empresarial

LinceBI es la mejor solución Analytics basada en Open Source, partiendo de desarrollos en Pentaho e incluyendo funcionalidades de Machine Learning y Big Data

Incluye conectores con las principales fuentes de datos, así como soluciones verticales por industrias, con los principales KPIs, Dashboards e informes de cada área, estando en uso en gran cantidad de grandes organizaciones

Su escalabilidad, permite a LinceBI ser la solución ideal para el uso de los más modernos algoritmos de Machine Learning y las tecnologías Big Data OLAP con acceso y visualización de grandes volúmenes de datos

10 trucos para integrar el Business intelligence dentro de los procesos de negocio

$
0
0



El Business Intelligence cada vez esta siendo más considerado como un proceso estratégico, pero se necesita que se pueda aplicar a cada uno de los procesos individuales que ocurren en una empresa.
Sólo de este modo se podrán conseguir los objetivos estratégicos planteados por la dirección y donde el BI nos puede ayudar mucho a conseguirlos.

Estos son 10 trucos que nos pueden venir muy bien para alcanzar el objetivo:

1) Antes de integrar tus sistema BI con otros de tipo operacional o portales de trabajo es necesario que tengamos un sistema coherente en cuanto al nombre de los códigos, que todo se llame igual en todos los sitios, que se usen las mismas métricas y fórmulas, que se usen los mismos intervalos de tiempo, etc... Intenta mantener todos tus metadados en xml.

2) Hay que intentar que todas las herramientas y plataformas utilizadas a lo largo de la empresas sean comunes. Si son del mismo vendedor, incluso mejor.

3) Antes de poner las herramientas disponibles al usuario final, tener toda la estructura integrada. Es decir, se trata definir unos KPI´s comunes, para que si un Director esta consultando un Scorecard o un Dashboard, pueda profundizar hasta el nivel de detalle siguiente ese mismo KPI.

4) Centrar los objetivos del BI en conseguir un único criterio fundamental, en lugar de alcanzar varios de golpe: Ej) reducir los costes operativos.

5) Utilizar una metodología para saber quien usa realmente o puede llegar a usar un sistema BI. A partit de aquí, habrá que dibujar una planificación de roles, dependencias, prioridades, necesidades, etc...

6) No suponer que sólo existe una fórmula para integrar el Business Intelligence. Existen varias, y será preciso conocer muy bien a la organización.

7) Integrar Bi web services utilizando los propios API que proporcionan los vendedores. De este modo podemos incluir portlets y otros componentes en nuestras aplicaciones sin un elevado esfuerzo.

8) Si los usuarios necesitan compartir sus análisis, publicarlos, y otro tipo de necesidades workflow, lo mejor es ubicar soluciones BI dentro de las intranets y portales ya en funcionamiento, para tomar ventaja de todo este entorno colabrativo.

9) Para obtener todas las ventajas de los datos operacionales del negocio, será muy útil aprovecharse de los nuevos desarrollos como las nuevas funciones SQl analíticas, las vistas materializadas, Java Beans, etc...

10) Usar procesos en tiempo real (en la medida de los posible), que junto con el uso de herramientas de monitorización de activades y consultas nos dará un visión muy ajustada del comportamiento de los usuarios.

Bueno, estos consejos (algunos de los cuales parecen obvios) son el punto fundamental, para que una organización se beneficie, 'realmente' del uso del Business Intelligence.

Tags: Teoria
Fuente: Mike Ferguson - Business Intelligence.com

Nuevos Desarrollos y Futbol Analytics

$
0
0




Presentación del Evento

Todo comenzó a las 09:00 con una presentación en la que uno de los principales promotores del evento José Luis Sánchez Vera excusaba su ausencia mediante un video por compromisos con el equipo femenino. PD: Enhorabuena José Luis por el evento y por la victoria frente al Levante por 0-4.






Víctor Mañas – Arsenal (Integración de la analítica de datos en los procesos de análisis del juego de un equipo de futbol profesional)
Inicio Víctor su intervención indicando el enfoque de análisis de equipo propio y rival para el que dentro de su club disponen de una empresa propia que les proporciona los datos.




En la siguiente diapositiva nos mostraba dentro del cuerpo técnico cuales eran sus tareas principales a lo largo de la semana entre las que destacan el análisis del equipo rival (Realizando cortes de entre 4-6 partidos completos y revisando 8-10 encuentros en facetas de balón parado).



Interesante destacar el proceso de adquisición de datos que llevan a cabo, almacenamiento y visualización con Power BI y Tableau (analítica de datos descriptiva) y realizando predicciones con R (analítica de datos predictiva).  A nivel personal resulta gratificante ver como los clubs punteros realizan este proceso de adquisición, almacenamiento y análisis del dato al que yo me llevo dedicando desde 2009 en el ámbito más puramente empresarial.



Una vez que los datos nos dan información de los patrones de comportamiento del equipo rival, llega la hora de entrenar la manera de contrarrestar los puntos fuertes del rival. Fue muy interesante la parte de la charla en la que menciona las Vigilancias defensivas.




Concluyó Victor su intervención indicando que el análisis de datos debe de facilitar y ayudar en los procesos de toma de decisiones.


Xabi Ruiz Ocenda – Atlético de Madrid (Desarrollo metodológico del plan de partido, Microciclo competitivo desde el punto de vista táctico)
Comenzó su intervención Xabi indicando cuales son los 3 cimientos del modelo de juego del Atlético de Madrid en los todos identificamos un 4-4-2 siendo un equipo con un fuerte concepto defensivo y al que resulta muy difícil generarle ocasiones de gol, teniendo en la victoria su principal prioridad.



A partir de esta introducción comenzó una de las mejores partes del Congreso en la que Ocenda nos impartió una clase magistral analizando las 4 fases y momentos del juego y bajando hasta grandes niveles de detalle en los puntos que se analizan en una semana de trabajo tipo para un analista.




Terminó Xabi su ponencia mostrando videos de entrenamientos para contrarrestar los puntos fuertes de los oponentes y marcando los retos a afrontar en su futuro, aunque ya te lo indiqué en persona, volver a repetir por aquí lo bueno y educativo de tu intervención Xabi.





Mesa Redonda Analistas La Liga

En esta mesa redonda moderada por el ovetense Marcos López(Best of You, Cope, Movistar) y en la que participaron el Rubén Reyes (analista del Rayo Vallecano), Borja de Matías (Analista del Alavés), Tino Cabrera (Analista del Betis) y Susana Ferreras (Científica de datos del Arsenal).
La mesa tuvo un formato muy interactivo en el que todos los asistentes podíamos formular preguntas a los analistas de la mesa, enriqueciendo así el debate y las posibilidades formativas de la mesa.





Carles Planchart – Manchester City (Evolución y adaptación del Análisis en los diferentes equipos)
Para cerrar el evento estaba dedicada la ponencia de Carles un fiel compañero de Pep Guardiola.
Carles realizo una reseña a su evolución desde la temporada 2002-2003 en el FC Palafrugell con videos en formato VHS hasta la gran cantidad de recursos audiovisuales que la Premier League Ofrece.
Planchart indicó que dentro de su club confían más en los datos generados por recursos propios del club con información personalizada, confidencial y más fiable que la proporcionada de forma masiva por los proveedores de datos deportivos (Opta, STATS, InStat, Wyscout, ...)




Me pareció bastante interesante y diferencial la parte de entrenamiento para jugadores lesionados con gafas de realidad aumentada. Una forma novedosa de transmitir por ejemplo conceptos de salida de balón a Eliaquim Mangala o Vincent Kompany sin necesidad de saltar al terreno de juego.




Continuó su intervención mostrando un video en el que Pogba realizaba conducciones durante la época de Mourinho en el Manchester United y quiso matizar que su filosofía en el City era totalmente distinta apostando por un avance del balón apoyándose en las triangulaciones y utilizando el concepto del tercer hombre.
Para terminar, es digno de reseña la transformación de la Premier League en los últimos años con el desembarco en las islas de entrenadores y jugadores no anglosajones, generando significativos cambios en el estilo de juego de esta competición.




Con la llegada de los entrenadores y jugadores no británicos los pases cortos y el tiempo de posesión ha aumentado considerablemente.

Un evento genial. El Futbol Analytics ha llegado!!

Autor: David Fombella docente del Máster en Big Data Deportivo del Big Data International Campus, realiza en este post un resumen del Congreso de Análisis de Rendimiento y Nuevos Desarrollos en el Fútbol celebrado el sábado 23 de Marzo de 2019 en el auditorio del estadio Wanda Metropolitano.


Las 53 Claves para conocer Machine Learning

Por que el ETL es crucial

$
0
0
 

Por favor, leed este articulo. Es una joya para todos los que trabajan en Data Warehouse, Business Intelligence, Big Data


En TodoBI nos gusta decir que en los proyectos BI, DW son como un iceberg (la parte oculta es la mas grande e importante) y se corresponde con el ETL


Un extracto del artículo:


"ETL was born when numerous applications started to be used in the enterprise, roughly at the same time that ERP started being adopted at scale in the late 1980s and early 1990s"


Companies needed to combine the data from all of these applications into one repository (the data warehouse) through a process of Extraction, Transformation, and Loading. That’s the origin of ETL.


So, since these early days, ETL has essentially gotten out of control. It is not uncommon for a modest sized business to have a million lines of ETL code. 


ETL jobs can be written in a programming language like Java, in Oracle’s PL/SQL or Teradata’s SQL, using platforms like Informatica, Talend, Pentaho, RedPoint, Ab Initio or dozens of others.



With respect to mastery of ETL, there are two kinds of companies:


  • The ETL Masters, who have a well developed, documented, coherent approach to the ETL jobs they have
  • The ETL Prisoners who are scared of the huge piles of ETL code that is crucial to running the business but which everyone is terrified to change.
Mas info: ETL con soluciones Open Source

Hadoop Hive y Pentaho: Business Intelligence con Big Data (Caso Practico)

$
0
0


Cuando los profesionales del Business Intelligence (BI) oímos hablar de Big Data existe una cuestión que nos suele venir a la cabeza casi de forma natural ¿Es posible usar Big Data para el desarrollo de aplicaciones de BI típicas como el análisis OLAP o la generación de informes? 

A continuación, si la respuesta es afirmativa, con seguridad nos surgirán algunas dudas más:

  •   Posibilidades de conexión con las herramientas de BI. Por ejemplo con Pentaho, la suite BI Open Source más conocida y líder del mercado
  •   Rendimiento con aplicaciones de generación de informes y OLAP
  •   Carga de datos relacionales, procesos de ETL con Big Data, automatización de los procesos…

Para intentar dar respuesta a algunas de las cuestiones anteriores, hemos llevado a cabo un conjunto de pruebas para el desarrollo de aplicaciones BI haciendo uso del binomio Hadoop – Pentaho

La prueba ha consistido en replicar un Data Warehouse  generado en un proyecto real sobre una BBDD Oracle y con una alta volumetría, a un nuevo Data Warehouse en el clúster Hadoop usando la herramienta Apache Hive

Gracias a la conexión JDBC, conectaremos Hive con las aplicaciones disponibles en la suite Pentaho para evaluar la viabilidad de la generación de informes o reporting con Big Data, siendo esta una de las aplicaciones BI más demandadas en la actualidad por las empresas.
 
Para llevar a cabo la prueba hemos usado las últimas versiones 6.X de las herramientas de Pentaho y disponemos de un clúster Hadoop con las siguientes características:

·         Distribución 2.4 de Hortonworks
·         2 máquinas o hosts
·         2 procesadores por máquina (total 4)
·         16 Gb Ram por máquina (total 32 Gb)


Generación de informes

En la siguiente imagen puede verse la arquitectura de la aplicación BI desarrollada:



Para la carga de las tablas del DW de Oracle en Hadoop hemos usado tanto Sqoop como Pentaho Data Integration, gracias a la integración de esta última con HDFS y Sqoop. 

Tras esto, para la creación del Data Warehouse en Hadoop hemos usado la herramienta Apache Hive. Esta herramienta soporta consultas en lenguaje SQL y usa como almacenamiento el sistema de archivos distribuido de Hadoop HDFS. 
Además, recientemente se ha incorporado en la distribución Hortonworks el nuevo motor de ejecución Apache Tez, que mejora en gran medida el rendimiento de Hive haciendo uso intensivo de la memoria RAM del clúster y evitando el uso de IO a disco siempre que sea posible.

Por último, hemos usado la conexión JDBC disponible en Hive para conectar con las siguientes aplicaciones de la suite Pentaho, con el objetivo de dar soporte a la generación de informes sobre el Data Warehouse creado Hive:

 * Pentaho Reporting Designer: Usada para la generación de informes estáticos y parametrizables. Para las pruebas hemos creado 3 informes con consultas de distinta complejidad.

* Pentaho Metadata Editor: Creación de un modelo de metadatos que es usado por aplicaciones como STReport para la generación de informes AdHoc, herramienta incluida en la suite Lince BI, desarrollada por el equipo de StrateBI a partir de Saiku Reporting. Con STReport generaremos 3 informes con consultas similares a las de los 3 informes estáticos generados con Pentaho Reporting Designer.

* Pentaho BA Analytics (Servidor de BI): Servidor de BI de Pentaho, donde ejecutaremos los informes creados con Pentaho Reporting Designer y crearemos nuevos informes sobre el modelo de metadatos usando la herramienta STReport



Dado que los entornos Big Data están preparados para procesar volúmenes de datos mucho más grandes que los de nuestro DW de ejemplo, hemos creado dos tablas de hechos adicionales a la original de 1.240.361 filas, las cuales tienen 5.161.444 filas (x4) y 25.807.220 (x20) respectivamente. De esta forma hemos creado versiones de los 6 informes (3 estáticos con PRD y 3 adhoc con PME + STReport) que se ejecutan sobre las 3 tablas de hechos de distinta volumétrica. 

Tras la ejecución, en la siguiente tabla se muestran los tiempos de generación medidos:




Conclusiones

Esta prueba nos demuestra que es posible la generación de informes sobre datos que están almacenados en una plataforma Big Data como Apache Hadoop, gracias a las capacidades de la herramienta Apache Hive y su conectividad JDBC. 

También hemos comprobado como las herramientas de la suite Pentaho, gracias a su conectividad con Hadoop, son el complemento ideal para el desarrollo de aplicaciones BI que hacen uso del Big Data
No obstante es necesario tener en cuenta los tiempos de respuesta en la generación de informes, los cuales hacen que la generación de informes sobre Hive sea recomendada en casos los que el tiempo respuesta instantánea no sea un requisito indispensable. A cambio, obtenemos la posibilidad de generar informes sobre datos de tipo Big Data (Volumen, Variedad y Velocidad). 

En cualquier caso, nuestro clúster de pruebas tiene unas prestaciones muy reducidas, siendo habitual el despliegue de clúster que cuentan con más 5 máquinas y un cantidad de memoria RAM en conjunto superior a los 100 Gb. Es precisamente el uso intensivo de la RAM por Apache Hive (sobre el motor de ejecución Tez), lo que seguramente está penalizando nuestros tiempos en respuesta en más de 10-15 segundos.

Dado que existen más herramientas y aplicaciones BI susceptibles de ser desarrollados con la tecnología Big Data, en pruebas posteriores nos proponemos comprobar las capacidades de Apache Impala para la generación de informes en una distribución de Cloudera o el análisis OLAP usando el novedoso Kylin sobre Hadoop

Esperamos que os sea útil


·  


Ranking de las mejores Bases de Datos

$
0
0
Mas de 300 bases de datos son evaluadas en la comparativa que realizan en DB-engines anualmente

Un imprescindible para todos los que manejan datos. Cada vez tenemos más opciones y tecnologías donde elegir. Ah, y la mayoría, son Open Source





Checklist para hacer un proyecto Business Intelligence

$
0
0
Analisis

BI Termometer, es la iniciativa que tenemos en marcha, para hacer una gran recopilación de los indicadores más importantes a la hora de poner en marcha un proyecto Business Intelligence. Muchos proyectos Business Intelligence fracasan por no haber realizado una correcta toma de requerimientos. Desde Stratebi queremos ayudar a solventar este problema.

El objetivo es llegar a los 1500 indicadores de relevancia para construir este tipo de sistemas. Además, nos hemos propuesto ofrecer esta herramienta en abierto de forma que pueda ser de utilidad para todos, ofrecíéndola de forma online y generando informes y cuadros de Mando de resumen.Totalmente gratis!!

Aquí tenéis toda la información.

Ya están disponibles dos nuevas áreas de análisis (con gran cantidad de indicadores), que se añaden a la anteriores ya disponibles, por lo que ya tenemos:
- Analisis
- Reporting y User Interface
- Business Rules.
- ETL y Calidad de Datos.

- DW (Nuevo)

- Arquitectura (Nuevo)

Dashboard

Esperamos que esta herramienta os sea de ayuda!! no dudéis en darnos feedback de vuestra utilización.

Real Time Analytics, concepts and tools

$
0
0

We could consider three types of Real Time when we manage data and depends on each stage:

1. Real Time Processing: Is the possibility of ingest data at the time the event is produced in real live. This includes only processing step, i.e copying data from source to destiny and guarantees data to be ready for analytics

You can try some online demos here




Technologies:




2. Stream Analytics: it performs analytics of data on the fly, as a stream is usually analyzed in a window time frame, the analytics we can do here is limited because only attack a very limited data set




Technologies:




3. Real Time Analytics: refers to two basic conditions: the most recent data will be included in any report, graphic, etc, that analytics will take near to 0 time in execute




Technologies:


In Memory Mapreduce
-Apache Spark (Spark SQL)

Column Storage Engines
-Kafka + (Spark | Flink) + 
-InfluxDB (Time series analytics)



-Marketing (Product recommendations based on latest updates)
-Fraud Detection (Tracking suspect activities on events that appear to be fraudulent)
-Health Care Monitoring (Social network trending topics can help to this)




Big Data: Real Time Dashboards with Spark Streaming

$
0
0


Al abrirse la página de esta demostración, se solicita una conexión con el end point que provee los datos de la wikipedia, mediante un WebSocket.


Enel servidor se crea una conexión con el cliente y mientras esté abierta y no ocurran errores en el envio, el sistema busca los datos de los componentes de "Broadcast Queue". Estos componentes, a su vez, están recibiendo datos del API REST, que les llega a través del Cliente Http implementado y usado por Spark para enviar los resultados.
La implementación de la "Broadcast Queue", permite que todas las conexiones al servidor puedan buscar los datos en la misma cola obteniendo un tiempo óptimo de O(1), (Complejidad Computacionalde obtener datos de una Cola de Mensajes) para cada conexión en recibir el mensaje.


A su vez, en su papel de Cola de Mensajes permite que la comunicación entre Spark y el Server Socket sea óptima, en O(1) igualmente sin contar los retrazos por red.


Esta implementación permite que un número muy alto de clientes puedan conectarse a visualizar en tiempo real los datos recibidos de la wikipedia.

Puedes ver también un video en funcionamiento:


Diferencias entre Data Analyst, desarrollador Business Intelligence, Data Scientist y Data Engineer

$
0
0


Conforme se extiende el uso de analytics en las organizaciones cuesta más diferenciar los roles de cada una de las personas que intervienen. A continuación, os incluimos una descripción bastante ajustada

Data Analyst

Data Analysts are experienced data professionals in their organization who can query and process data, provide reports, summarize and visualize data. They have a strong understanding of how to leverage existing tools and methods to solve a problem, and help people from across the company understand specific queries with ad-hoc reports and charts.
However, they are not expected to deal with analyzing big data, nor are they typically expected to have the mathematical or research background to develop new algorithms for specific problems.

Skills and Tools: Data Analysts need to have a baseline understanding of some core skills: statistics, data munging, data visualization, exploratory data analysis, Microsoft Excel, SPSS, SPSS Modeler, SAS, SAS Miner, SQL, Microsoft Access, Tableau, SSAS.



Business Intelligence Developers

Business Intelligence Developers are data experts that interact more closely with internal stakeholders to understand the reporting needs, and then to collect requirements, design, and build BI and reporting solutions for the company. They have to design, develop and support new and existing data warehouses, ETL packages, cubes, dashboards and analytical reports.
Additionally, they work with databases, both relational and multidimensional, and should have great SQL development skills to integrate data from different resources. They use all of these skills to meet the enterprise-wide self-service needs. BI Developers are typically not expected to perform data analyses.

Skills and tools: ETL, developing reports, OLAP, cubes, web intelligence, business objects design, Tableau, dashboard tools, SQL, SSAS, SSIS.



Data Engineer

Data Engineers are the data professionals who prepare the “big data” infrastructure to be analyzed by Data Scientists. They are software engineers who design, build, integrate data from various resources, and manage big data. Then, they write complex queries on that, make sure it is easily accessible, works smoothly, and their goal is optimizing the performance of their company’s big data ecosystem.
They might also run some ETL (Extract, Transform and Load) on top of big datasets and create big data warehouses that can be used for reporting or analysis by data scientists. Beyond that, because Data Engineers focus more on the design and architecture, they are typically not expected to know any machine learning or analytics for big data.

Skills and tools: Hadoop, MapReduce, Hive, Pig, MySQL, MongoDB, Cassandra, Data streaming, NoSQL, SQL, programming.



Data Scientist

A data scientist is the alchemist of the 21st century: someone who can turn raw data into purified insights. Data scientists apply statistics, machine learning and analytic approaches to solve critical business problems. Their primary function is to help organizations turn their volumes of big data into valuable and actionable insights.
Indeed, data science is not necessarily a new field per se, but it can be considered as an advanced level of data analysis that is driven and automated by machine learning and computer science. In another word, in comparison with ‘data analysts’, in addition to data analytical skills, Data Scientists are expected to have strong programming skills, an ability to design new algorithms, handle big data, with some expertise in the domain knowledge.

Moreover, Data Scientists are also expected to interpret and eloquently deliver the results of their findings, by visualization techniques, building data science apps, or narrating interesting stories about the solutions to their data (business) problems.

The problem-solving skills of a data scientist requires an understanding of traditional and new data analysis methods to build statistical models or discover patterns in data. For example, creating a recommendation engine, predicting the stock market, diagnosing patients based on their similarity, or finding the patterns of fraudulent transactions.
Data Scientists may sometimes be presented with big data without a particular business problem in mind. In this case, the curious Data Scientist is expected to explore the data, come up with the right questions, and provide interesting findings! This is tricky because, in order to analyze the data, a strong Data Scientists should have a very broad knowledge of different techniques in machine learning, data mining, statistics and big data infrastructures.

They should have experience working with different datasets of different sizes and shapes, and be able to run his algorithms on large size data effectively and efficiently, which typically means staying up-to-date with all the latest cutting-edge technologies. This is why it is essential to know computer science fundamentals and programming, including experience with languages and database (big/small) technologies.



Skills and tools: Python, R, Scala, Apache Spark, Hadoop, data mining tools and algorithms, machine learning, statistics.


Visto en BigDataUniversity

Analisis de los Panama Papers con Neo4J - Big Data

$
0
0


En este ejemplo se usa Neo4j como Base de Datos basada en grafo para modelar las relaciones entre las entidades que forman parte de los Papeles de Panamá (PP). A partir de ficheros de texto con los datos y relaciones entre clientes, oficinas y empresas que forman parte de los PP, hemos creado este grafo que facilia la comprensión de las interacciones entre sujetos distintos en esta red.
La demostración comienza seleccionando una entidad de cualquier tipo (Address, Company, Client, Officer), según el tipo que seleccione se muestran los atributos de ese nodo, luego seleccione el atributos que desea e introduzca el filtro, agregando varios paneles para filtrar por más de uno si es necesario. El parámetro "Deep" significa el número de conexiones al elemento seleccionado que se quiere mostrar.
En el servidor se hace una búsqueda BFS a partir del nodo seleccionado realizando consultas a Neo4j para cada tipo de relación donde una de sus partes sea el nodo actual, hasta llegar al nivel de profundidad solicitado. Se van guardando los nodos y los arcos para devolverlos como resultado.


Para la visualización del grafo se ha usado Linkurious, uno de los componentes más efectivos para este propósito en el mercado. Se puede interactuar con el grafo haciendo zoom, seleccionando elementos, moviendo elementos o usando el lasso tool para seleccionar varios nodos. Haciendo doble click sobre un nodo se cargan las conexiones a él que no estén visualizadas.
Neo4j y las Bases de Datos basadas en grafos en general tienen aplicaciones muy particulares, como Detección de Fraudes (descubriendo patrones de relaciones entre nodos), Recomendaciones en Tiempo Real (es relativamente sencillo, usando el peso de las relaciones de cada nodo, su tendencia, etc), Analítica de Redes Sociales (por la facilidad de implementar algoritmos de grafos en este tipo de Base de Datos)
Enjoy it!!

List of Open Source solutions for Smart Cities - Internet of Things projects

$
0
0

Increasingly projects are carried on so-called 'Smart Cities', supported by Big Data, Internet of Things... and the good news is that most of them are made with Open Source technologies. We can share, from TodoBI.com our insights about these technologies

Making a city “smart” involves a set of areas we will outline below: Without IOT (Internet Of Things), there will be no Smart City. 

Since automatic collected data is the most efficient way to get huge amounts of information, devices connected to the internet are an essential part of a Smart City.
The way we store and process data from city is generally using Big Data and Real Time Streaming technologies. 

The final goal where more innovative and custom analysis can be achieved using Artificial Intelligence and Machine Learning. Finally I would include Apps, as usually this kind of solutions is consumed in mobile devices. 




Here we outline the common process of building a Smart City solution: 

-Choose data 
-Connecting devices 
-Design Data Storage Infrastructure 
-Real Time Events and Notifications 
-Analytics -Visualization (Dashboards) 

 1) Choosing Data 

In a city there are three basic sources of data: citizens, systems, sensors. Use the available information of users, on social networks, informations systems, public statistical information offered by the administration. 

A typical example is user with geolocalization enabled in twitter. Information about the systems and services in a city are sometimes available in open data sources. An example could be the water or electricity consumption. 

Last but not least, sensors. A city hoping to become “Smart” has to intend to provide automatic information of its environment, and that could be achieved using sensors. Sensors can be anywhere


2) Connecting Devices


Devices (sensors) connects with the real time data streaming and the storage infrastructure using efficient communications protocols, that using light weight packaging and asynchronous communications.


Examples of some communications protocols used:


MQTT (Message Queuing Telemetry Transport) Websocket (bi-directional web communication and connection management)


STOMP (The Simple Text Oriented Messaging Protocol)


XMPP (Extensible Messaging and Presence Protocol)



3) Design Data Storage Infraestructure 


The Data Storage Infrastructure for a Smart City solutions has special characteristics, due to the diversity and dynamism of its sources. 


Time series DB are frequently used, because of the time evolution of data catched by sensors Some examples of this kind of DB are InfluxDB and Druid

Another DB commonly used in Smart Cities project are MongoDB (json format advantages), Cassandra (fast insertion advantages), Hadoop (big data frameworks advantages)

Some samples





4) Real Time events and notifications


Usually Smart Cities solutions have needs for real time notifications on events. To accomplish such requirements the system must have a Stream Analytic engine, that can react to events in real time and send notification. This characteristics bring us some technologies related to this; Storm, Spark Streaming, Flink, WebSocket, Socket.IO



IoT Frameworks:



Node-RED



Node-RED is a tool for wiring together hardware devices, APIs and online services in new and interesting ways.

The light-weight runtime is built on Node.js, taking full advantage of its event-driven, non-blocking model. This makes it ideal to run at the edge of the network on low-cost hardware such as the Raspberry Pi as well as in the cloud.

The flows created in Node-RED are stored using JSON which can be easily imported and exported for sharing with others.
An online flow library allows you to share your best flows with the world


PubNub




     PubNub is a Data Stream Network, that offers infrastructure as a service. With PubNub,  we can use the infrastructure provided and connect our devices, designing our architecture and simply get advantages of all this.

PubNub has 5 main tools:

-Publish Subscribe (Allows Real Time Notifications of Events to users)
-Stream Controller (Allows managing channels and groups of channels)
-Presence (Allows notifications when users login or leave the system, or similar behaviour, device availability for example)
-Access Manager (Allows administrators, to grant or deny permitson users of the systems)
-Storage & Playback (Provide storage for messages,and allows messages retrieval at later time)



IoT-AWS



AWS IoT is a platform that enables you to connect devices to AWS Services and other devices, secure data and interactions, process and act upon device data, and enable applications to interact with devices even when they are offline


5) Analytics and Visualization



You can show real time dashboards, reports, OLAP Analysis using tools like Pentaho. See samples of Analytics  

Integracion Talend-Salesforce (Paper)

$
0
0


El propósito de este documento es realizar un pequeño ejercicio entre la herramienta Talend Open Studio (v7.1) y Salesforce

Descargar

Salesforce es un servicio en nube (cloud service) y como tal, trae nuevos conflictos y retos. A diferencia de las bases de datos relacionales la mayoría de características no están disponibles en el servicio cloud y es necesario una herramienta adicional de integración para el consumo de datos. 

Salesforce dispone de cuatro ediciones principales: Salesforce Essentials, Lightning Professional, Lightning Enterprise y Lightning Unlimited. La posibilidad de comunicación vía API es a partir de la versión Lightning Enterprise

Te puede interesar:


Como integrar Salesforce y PowerBI



Os contamos las posibilidades de integración de las dos soluciones Business Intelligence y CRM más extendidas del mercado: PowerBI y Salesforce Gracias a la posibilidad de integración de las herramientas se abre una gran cantidad de posibilidades Ahora puede obtener información en tiempo real de los datos de Salesforce mediante la conexión a través de Power BI Según los principales estudios, tanto Salesforce como Microsoft PowerBI lideran...


Descarga el paper con tips para Talend



Os damos acceso a un interesante paper de nuestros compañeros de Stratebi, Partners de Talend (la potente solución ETL open source, con versión también Enterprise), que aborda los temas de la integración con Google Big Query, como realizar cargas incrementales y debugging Descargar paper Mas info: Caso Practico: trabajando con APIs y Talend agosto 29, 2018  destacado, Documentacion, ETL, Talend  No...


Tips y Tecnicas de optimización de Vertica con Talend



Os traemos unos cuantos trucos y recomendaciones sobre dos de nuestras herramientas favoritas: Vertica y Talend Configuring Talend for Use with Vertica To configure Talend for use with Vertica, you must understand: Using Talend Components for Vertica Using the Talend SQL Builder Enabling Parallelization in Talend ...


Comparacion entre Talend y Pentaho



Hace un tiempo os poníamos una primera Comparación entre Pentaho Data Integration Talend Open Studio. Hoy traemos otra comparación interesante: Talend: Talend is an open-source data integration tool whereas Pentaho Kettle is a commercial open-source data integration tool Talend offers limited connectivity to concurrent databases, and other forms of data but has a dependency factor of Java drivers to connect to the data sources...


Caso de uso de Apache Kafka en tiempo real, Big Data

$
0
0

Este es un buen ejemplo de uso de Apache Kafka en entornos Big Data para consultas y visualización. Ver Cuadro de Mando

En la imagen inferior se muestra el cluster de brokers 3 producers que emiten datos hacia el cluster kafka.



El componente "Kafka Producer" se conecta al stream de la wikipedia y registra un listener, que es un sujeto del patrónobserver ; cuando se genera una actualización en la wikipedia se recibe a través del "Socket" y este lo notifica al "Listener", que contiene un org.apache.clients.producer.KafkaProducer, el producer registra un callback para notificarle que se ha enviado un mensaje a kafka, la notificación contiene el offset y lapartición de cada mensaje, en este paso se envía cada minuto vía API el tiempo en milisegundos y el offset para ese tiempo.


Esta información se almacena en una Base de Datos PostgreSQL, para luego ser consultada. Cuando el usuario selecciona una fecha a partir de la cual quieren ver los mensajes, el sistema busca en la Base de Datos un offsetregistrado en la fecha solicitada, el cluster kafka mantiene los mensajes en los ficheros locales por 3 días.
Una vez obtenido el offset para la fecha requerida se solicita por medio del "Consumer Holder" un "Thread Safe Kafka Consumer" que realiza las operaciones seek y poll, para indicar el punto y consumir a partir de él respectivamente.
Pordefecto,un org.apache.kafka.clients.consumer.KafkaConsumer no es Thread Safe, por tanto para ser usado en un entorno con accesos simultáneo de usuarios se hizo una implementaciónque permite usar un Consumer por varios hilossinchronizando el acceso al objeto.

Viewing all 575 articles
Browse latest View live