Whitepaper gratuito 'Usos de Machine Learning por sectores'

February 5, 2019, 12:48 am

≪ Previous: When to apply Business Intelligence, Big Data and Machine Learning

Ya tenéis disponible un Estudio muy interesante de más de 60 páginas, que os podéis descargar gratuitamente desde el enlace anterior

Que podéis encontrar?

Más información:

Plataforma Online de Soluciones Big Data y Machine Learning (Demos y Aplicaciones)
Aplicación práctica de Machine Learning con Bases de Datos Analyticas. Descargar Paper
VideoTutorial Machine Learning para Predicción de Ventas
VideoTutorial PowerBI con R
Aplicación de técnicas de Data Mining para Sentiment Analysis. Whitepaper descargable

- Otros VideoTutoriales:

o Jupyter Notebooks con Anaconda y Python 3 Scikit Learn, Pandas, Numpy

o Curso de Introducción a Pentaho

o Introducción a Data Mining

- Otras Presentaciones:

o Benchmark Big Data OLAP Analytics

o Machine Learning con Anaconda, Jupyter y Python

o Introducción al Machine Learning

o 53 Claves para conocer Machine Learning

o Introducción al Data Mining

Artículos interesantes sobre Machine Learning:

Diferencias entre Business Intelligence y Data Science (bien explicado)
Curso de Machine Learning en Madrid()
Glosario de Inteligencia Artificial (AI)
Machine Learning Demo Tutorial
Mas de 20 Tecnicas y Tipos de Analisis
Como hacer Deep Learning con Pentaho
Como Pentaho ayuda a los cientificos de datos
Los mejores posts de TodoBI sobre Machine Learning y BIG DAta durante el verano
Videotutorial: Usando R para Machine Learning con PowerBI
Cual es el orden correcto para hacer un proyecto de Machine Learning?
Ejercicio practico de Machine Learning con Jupyter Notebooks, Anaconda y Python 3
AI, Machine and Deep Learning timeline
Formacion Data Engineer: Machine Learning con Spark
Aprende Machine Learning con Facebook
Machine learning con Pentaho
The Timeline of Statistics (Machine Learning)
La Tabla Periodica interactiva del Machine Learning
Las mejores APIs para Machine Learning
Las 20 mejores librerias para Data Scientists en R
Curso en Madrid de Machine Learning
RStudio papers: listos para descargar

↧

Big Data para PowerBI

February 19, 2019, 12:52 am

≫ Next: Como ha evolucionado el Machine Learning?

≪ Previous: Whitepaper gratuito 'Usos de Machine Learning por sectores'

Al igual que estas últimas, implementa la filosofía de Autoservicio para el usuario final (Self Service BI) llevada al extremo de la sencillez, pero con un gran número de características como el desarrollo de cuadros de mando (denominados informes en Power BI), la compartición web o dentro de la organización, un gran número de gráficos incluyendo gráficos con análisis estadístico (ej. forecasting página 2 demo), conexión a fuentes relacionales y Big Data, exploración en lenguaje natural (Q & A), soporte para ejecutar código R y visualizar resultados, o pre procesamiento de datos (ETL).

Las características anteriores se implementan repartidas en las distintas aplicaciones. Power BI Desktop es la herramienta de cliente para la exploración, transformación y diseño de visualizaciones a partir de los datos. Se trata de una herramienta completamente gratuita, que dispone de conexiones a las fuentes Big Data y relacionales más usadas. Aunque para algunas fuentes dispone de un conector específico, en el caso de Apache Kylin hemos de hacer uso del conector ODBC disponible en su web.

Tras la conexión, se genera un extracto de los datos. A partir de este momento los pasos para la creación de nuestro cuadro de mando han sido i) la definición del modelo de datos, ii) la aplicación de alguna transformación (ej. formato de fecha), iii) la definición de métricas calculadas (ej. tasa de éxito) o jerarquías sobre las dimensiones (ej. tabla OLAP página 2 demo), y, por último, iv) la creación del cuadro de mando demo, compuesto por dos páginas (selector en barra inferior).

Una vez hemos diseñado y guardado nuestro cuadro de mando con Power BI Desktop, llega el momento de compartirlo. Para ello hemos creado una cuenta de Power BI Service en su alternativa gratuita, pues en esta herramienta sí dispone de versiones Pro y Premium, ambas de pago. Aunque estas versiones disponen de conexión directa a algunas bases de datos como SQL Server (con o sin Analysis Services), Oracle o Cloudera Impala, para el resto de conexiones, como la conexión ODBC con Kylin, es necesario publicar el extracto de los datos, que se refresca de forma manual (versión gratuita) o programada (Pro y Premium).

Además de Power BI Desktop y Power BI Service (Free, Pro y Premium), existen otras herramientas como Mobile , para el acceso a los informes desde nuestro smartphone y el trabajo colaborativo, o Embedded, para componer nuestras propias aplicaciones, portales web, Share Point a partir de las visualizaciones desarrolladas con Power BI.

Sí estas interesado en hacer tu proyecto con esta tecnología no dudes en solicitar presupuesto en StrateBI, Partner de Microsoft PowerBI con larga experiencia

Aquí, (Ver Demo) puedes ver un ejemplo combinado de PowerBI on open source based Business Intelligence solutions, como LinceBI, de forma que puedes tener una solución completa BI, que cubre todos los módulos y necesidades

- Adhoc Reporting

- Predefined Dashboards

- OLAP Analysis

- Adhoc Dashboarding

- Scorecards

- Forecasts

Mas info:

- PowerBI functionalities

- PowerBI training

PowerBI for Big Data

Arquitecture:

En el caso de estudio que presentamos (Ver Demo), hacemos uso de las herramientas Apache Kylin , Power BI Desktop y Power BI Servicio para dar soporte al análisis mediante Cuadros de Mando de un almacén de datos (Data Warehouse, DW) que contiene datos con características Big Data (Volumen, Velocidad y Variedad).

Se trata de un gran Volumen de datos académicos, relativos a los últimos 15 años de una universidad de gran tamaño. A partir de esta fuente de datos, se ha diseñado un modelo multidimensional para el análisis del rendimiento académico. En él contamos con unos 100 millones de medidas cómo los créditos relativos a asignaturas aprobadas, suspendidas o matriculadas. Estos hechos se analizan en base a distintas dimensiones o contextos de análisis, como el Sexo, la Calificación o el Año Académico.

Dado que este Volumen de datos es demasiado grande para analizarlo con un rendimiento aceptable con los sistemas OLAP (R-OLAP y M-OLAP) tradicionales, hemos decidido probar la tecnología Apache Kylin, la cual promete tiempos de respuesta de unos pocos segundos para Volúmenes que pueden superar los 10 billones de filas en la tabla de hechos o medidas.

Las tecnologías del entorno Hadoop fundamentales para Kylin son Apache Hive y Apache HBase. El almacén de datos (Data Warehouse, DW) se crea en forma de modelo estrella y se mantiene en Apache Hive. A partir de este modelo y mediante la definición de un modelo de metadatos del cubo OLAP, Apache Kylin, mediante un proceso offline, crea un cubo multidimensional (MOLAP) en HBase. A partir de este momento, Kylin permite hacer consultas sobre el mismo a través de su interfaz SQL, también accesible a través de conectores J/ODBC.

Por último, para hacer posible la exploración de los datos del cubo de Kylin mediante lenguaje SQL y la creación de cuadros de mando que podamos compartir con los usuarios finales de los datos, hemos hecho uso de las herramientas Power BI Desktop y Power BI Service.

En primer lugar hemos usado Power BI Desktop, herramienta gratuita, para la conexión con Apache Kylin y la creación de un cuadro de mando similar al que realizamos para el ejemplo con Apache Zepelin y, también, con Tableau. La herramienta Power BI es una herramienta de Autoservicio para el usuario final (Self Service BI): facilita la creación y publicación de completos cuadros de mando a los usuarios finales de los datos, así como el modelado y transformación de los datos si es necesario.

Una vez diseñado el cuadro de mando, lo hemos publicado en la Web haciendo uso del servicio en la nube de Power BI. Para ello, es necesario la creación de un extracto o copia de los datos, que se hace de forma transparente al usuario y se sube a la nube de Power BI junto con el cuadro o cuadros de mando. En este caso hemos usado la versión gratuita, aunque también dispone de versiones Pro y Premium con características añadidas como la compartición intra organización (además de vía Web) o el refresco programado de los datos del extracto desde el origen, Apache Kylin por ODBC en nuestro caso.

↧

Como ha evolucionado el Machine Learning?

February 20, 2019, 12:57 am

≫ Next: Top 50 Business Intelligence Blogs Winners

≪ Previous: Big Data para PowerBI

Muy buena ilustración

↧

Top 50 Business Intelligence Blogs Winners

February 20, 2019, 1:01 am

≫ Next: Buena oferta de empleo para Data Scientists y Big Data (o que quieran serlo)!!

≪ Previous: Como ha evolucionado el Machine Learning?

Estamos muy contentos de poder contaros que vuestro blog Todobi.com es uno de los 'Top 50 Business Intelligence Blogs Winners'. De hecho es el único blog en español, por lo que el mérito es si cabe aun mayor

Seguiremos dedicando esfuerzo para ampliar y mejorar los contenidos y que os sean de interés

Muchas gracias,

↧

Buena oferta de empleo para Data Scientists y Big Data (o que quieran serlo)!!

February 20, 2019, 1:34 am

≫ Next: Dashboards using ascii/ansi

≪ Previous: Top 50 Business Intelligence Blogs Winners

En Stratebi, líderes en Business Intelligence, Big Data y Machine Learning y creadores de la plataforma LinceBI están buscando apasionados por estas áreas, con muchas ganas de aprender, crecer profesionalmente y liderar el desarrollo de la mejor plataforma Big Data Analytics en grandes proyectos.

"Nos gustaría que tuvierais los siguientes skills. Como es complicado tenerlos todos, con varios de ellos y muchas ganas de aprender, también sería factible. Escríbenos

Echa un vistazo a nuestros entornos Lab en Big Data y Business Intelligence"

DATA SCIENTIST

Recomendable:

Teoría de analítica de datos (estadística descriptiva, análisis de correlacion, reduccion de la dimensionalidad (PCA), regresión, etc.) , series temporales (estacionalidad, tendencia, predicciones, modelo ARIMA, etc.) y regresión (regresión lineal, algoritmos basados en árboles, etc.). También se valoraran conocimiento en técnicas de clasificación, clústering y sistemas de recomendación.

Conocimientos matemáticos y estadísticos que permitan interpretar e implementar con facilidad los algoritmos anteriores.

Experiencia demostrable en el uso de una o más de las siguientes tecnologías:

R desde RStudio, Jupyter, …
Python con Pandas, Scikit, TensorFlow….
Spark (en Scala o Python) con MLIB, R,…

Conocimiento medios de bases de datos y del lenguaje SQL:

Consultas analíticas con group by, joins, funciones de resumen (ej. Sum, count,…)
Consultas de creación de tablas y carga/actualización de los datos de las mismas (INSERT, UPDATE…)
Experiencia en el uso de alguna base de datos conocida (MySQL, PostgreSQL , SQLServer, Oracle,…)
Modelado relacional. (interpretación de esquemas de bases de datos)

Conocimiento de programación en alguna de las siguientes tecnologías

Scala
Python
Otras tecnologías de programación también se valoraran.

Deseable. Además de lo anterior se valoraran:

Conocimientos de Business Intelligence

Data Warehousing
Modelos de datos multidimensionales (esquemas estrella o copo de nieve)

Conocimientos teorico-prácticos de Big Data y el entorno Hadoop. Se valoraran conocimientos en:

Spark (Spark SQL, RDD, streaming, mlib, R,…)
Hive
Zeppelin
Sqoop
Kafka
Otros: HDFS, Map Reduce, Flink, Elasctic-Search,….

Conocimiento de herramientas de Business Intelligence:

Servidor BI: Power BI, Pentaho, Tableau, Microstrategy,…
Procesos ETL: Pentaho, Talend, SSIS…

Experiencia en empresa en las habilidades y herramientas anteriores.

BIG DATA ENGINEER

Recomendable:

Conocimientos de Business Intelligence

Data Warehousing
Modelos de datos multidimensionales (esquemas estrella o copo de nieve)
Procesos de extracción, transformación y carga de datos (ETL)

Experiencia demostrable en Big Data y el entorno Hadoop. Especialmente en las siguientes tecnologías:

Hive o Impala
Spark (Spark SQL, Streaming,..)
Gestión del clúster (Ambari, Cloudera Manager, configuración manual Hive, Spark, Hadoop…)
Otros que también se valoraran : HDFS, Map Reduce, HBase, Kafka, Kylin, Druid, Flink, Elasctic-Search ….

Manejo de una o más herramientas de Business Intelligence:

Servidor BI: Power BI, Pentaho, Tableau, Microstrategy,…
Procesos ETL: Pentaho, Talend, SSIS…

Conocimiento de bases de datos y del lenguaje SQL:

Consultas analíticas con group by, joins, funciones de resumen (ej. Sum, count,…)
Consultas de creación de tablas y carga/actualización de los datos de las mismas (INSERT, UPDATE…)
Experiencia en el uso de alguna base de datos conocida (MySQL, PostgreSQL , SQLServer, Oracle,…)
Modelado relacional. (interpretación de esquemas de bases de datos)

Experiencia en empresa en las habilidades y herramientas anteriores.

Deseable. Además de lo anterior se valoraran:

Teoría de machine learning (técnicas regresión, clasificación, clustering, …)

Conocimientos matemáticos y estadísticos que permitan interpretar e implementar con facilidad los algoritmos anteriores.

Conocimiento teórico prácticos en el uso de una o más de las siguientes tecnologías:

R desde RStudio, Jupyter, …
Python con Pandas, Scikit, TensorFlow….
Spark (en Scala o Python) con MLIB, R,…

Conocimientos de programación en alguna de las siguientes tecnologías

Scala
Python
Otras tecnologías de programación también se valoraran.

↧

Dashboards using ascii/ansi

February 21, 2019, 1:03 am

≫ Next: Machine Intelligence Landscape

≪ Previous: Buena oferta de empleo para Data Scientists y Big Data (o que quieran serlo)!!

Great to see this initiative: Build dashboards using ascii/ansi art and javascript

Rich dashboard
See source code

License

This library is under the MIT License

More Information

Created by Yaron Naveh (twitter, blog)

↧

Machine Intelligence Landscape

February 21, 2019, 1:07 am

≫ Next: Por que es interesante Elastic?

≪ Previous: Dashboards using ascii/ansi

Genial!! via Shivon Zilis

↧

Por que es interesante Elastic?

February 22, 2019, 8:38 am

≫ Next: Para aquellos que piensan que la Inteligencia Artificial es una moda actual

≪ Previous: Machine Intelligence Landscape

Hace unos días se celebró en Madrid el evento Elastic{ON} tour, dónde los creadores y usuarios del conocido motor de búsqueda y analítica de datos, contaron las novedades sobre el mismo, así como algunos casos de uso en empresas como Orange o Banco Santander.

Shay Banon, creador de Elastic, abrió el evento con una presentación acerca del presente y futuro de Elastic. En primer lugar, puso de manifiesto que esta herramienta surgida como un motor de búsqueda en una base de datos de documentos (índice invertido), se ha convertido en un conjunto de herramientas mucho más potente, ELK (Elasctiserach, Logstash y Kibana), dónde los usuarios además de implementar un sistema de búsquedas interactivos, tiene la posibilidad de implementar analítica de datos mediante la creación métricas de agregación (medias, recuentos, máximos, histogramas…), cuadros de mando y procesos de machine learning que se pueden crear de forma muy sencilla usando la herramienta Kibana.

Además, distintos miembros de elastic presentaron las novedades en algunas de las características más importantes y novedosas:

· Data Rollups: Pre agregación de datos de histórico mediante un asistente en Kibana, para mejorar el rendimiento de las consultas analíticas.

· Canvas: Para la creación de cuadros de mando pixel-perfect con Kibana, mucho más personalizables que los que actualmente podemos desarrollar. Además, se mostró un ejemplo usando el módulo de Elastic que permite consultar datos con lenguaje SQL, en lugar de usar la sintaxis clásica de la API JSON de elascticsearch.

· Machine Learning: Se hizo hincapié en las características para la detección de outliers y generación de predicciones, características muy útiles por ejemplo para la detección de fallos o sobrecargas en infraestructuras.

· Elastic Common Schema: Esquema para el mapeo de campos comunes (ej. campos geográficos, como la ciudad)

No menos importantes fueron los casos de uso mostrados por Orange y Banco Santander.

En el caso de Orange, usan Elastic para varios objetivos como la monitorización de las infraestructuras (redes móviles, tv) o el análisis de los datos de llamadas (CDR).

En el caso del Banco Santander, lo están usando para proporcionar una plataforma de análisis financiero a través de su nube privada, como servicio de valor añadido a los inversores. En ambos casos se trata arquitecturas dónde se ha desplegado Elastic en clústeres que van de 10 a cientos de nodos.

Además, destaca la presencia de otros componentes de datos como Kafka, cola de mensajes distribuida que facilita el movimiento de datos en tiempo real a distintas partes de la Big Data pipeline y aumenta la tolerancia a fallos actuando como un buffer persistente.

Por todo ello, consideremos que Elastic es una herramienta consolidada para la implementación de búsquedas y analítica sobre logs u otros conjuntos de datos con características Big Data.

No obstante, en cuanto a la analítica de datos, existen algunas limitaciones frente a planteamientos tradicionales de Data Warehousing, como la imposibilidad de hacer joins entre tablas (índices o tipos de documentos en elasctic) y otras limitaciones en la forma de agregar los datos o la creación de métricas.

Por ellos es importante determinar si nuestro escenario de Big Data Analytics puede ser cubierto usando únicamente Elastic (ELK). No obstante, dado que la integración con entornos Hadoop es posible (ej. a través de Spark), podemos combinar lo bueno de ambos mundos para el procesamiento analítico del Big Data, como así proponemos en nuestro Big Data Stack.

↧

Para aquellos que piensan que la Inteligencia Artificial es una moda actual

February 23, 2019, 2:41 am

≫ Next: What is Data Science

≪ Previous: Por que es interesante Elastic?

Es del año 1985, imaginaros. Aquí os lo podéis descargar, que maravilla!!

Saber más:

Glosario de Inteligencia Artificial (AI)

octubre 27, 2018 machine learning No comments

Red neuronal artificial (RNA) Un algoritmo que intenta imitar al cerebro humano, con capas de "neuronas" conectadas que se envían información entre sí. Algoritmos de caja negra Cuando el proceso de toma de decisiones o la salida de un algoritmo no puede ser fácilmente explicado por el ordenador o el investigador detrás de él. Computer vision El campo de la I.A. se ocupa de enseñar a las máquinas a interpretar el mundo visual, es decir, a ver. Aprendizaje...

Los 30 mejores proyectos de Machine Learning Open Source

enero 14, 2018 machine learning, open source 2 comments

Como sabéis, el Machine Learning es uno de los temas que más nos interesan en el Portal y, máxime, cuando gran parte de las tecnologías son Open Source. En esta entrada, os indicamos los 30 proyectos más interesantes en en este año. Os dejamos también el material que publicamos con las claves del Machine Learning y una introducción Ver también, VideoTutorial No 1 FastText: Library for fast text representation and classification....

↧

What is Data Science

February 23, 2019, 8:56 am

≫ Next: 7 datos sobre 'Data-Driven Innovation'

≪ Previous: Para aquellos que piensan que la Inteligencia Artificial es una moda actual

↧

7 datos sobre 'Data-Driven Innovation'

February 24, 2019, 10:09 am

≫ Next: Map of Computer Science

≪ Previous: What is Data Science

Datos, Datos... mueven el mundo

↧

Map of Computer Science

February 24, 2019, 10:26 am

≫ Next: Snowflake, The Data Warehouse built for the Cloud

≪ Previous: 7 datos sobre 'Data-Driven Innovation'

Where are you?

↧

Snowflake, The Data Warehouse built for the Cloud

February 25, 2019, 6:37 am

≫ Next: La Historia de la Inteligencia Artificial

≪ Previous: Map of Computer Science

Hace unas semanas, tuvimos la suerte de acudir al evento de presentación en España que realizó Snowflake

Breakfast Insights 24/01/19:

Ponentes:

Benoit Dageville: Uno de los fundadores
Thibaut Ceyrolle: Vicepresidente EMEA
Pedro Martins: Outsystems.

Topics:

Presentan al equipo de ventas de España. Oficinas en Madrid y Barcelona.
Posibilidades datawarehouse, de procesamiento y almacenamiento en la nube.
Flexible, escalable y ágil al ser un entorno cloud. Cuentan con alianzas con AWS, Azure
Principales sectores a los que se dirigen son empresas de internet, seguros, banca, salud, IoT
Principal inversor el grupo Sequoia que también ha invertido en Airbnb, Apple, Google, Facebook...
Info sobre pricing: https://www.snowflake.com/pricing/

El discurso principal se orienta a dedicar el tiempo a la toma de decisiones en lugar de a procesar datos (simplificar el ETL y el DW, para que 'negocio' decida)

La charla más interesante fue la de Pedro Martins donde destacó que buscaban una solución con soporte para datos estructurados y semi estructurados, conexiones de distintos orígenes (herramientas BI, machine learning...), capacidades SQL, simplicidad a la hora de preparar los datos y escalibilidad de almacenaje y computación.

Su caso de uso tenía como fuentes sistemas propios de su plataforma de Outsystems, datos de telemetría o Salesforce.
Usaban pentaho, Fivetran y el contector cloud de AWS S3 para la parte de ETL y la carga de datos en Snowflake. En cuanto a self service para analítica usaban R, Tableau y Qlik además de dashboards desarrollados por ellos.

El diseño del DW lo dividían en 3 secciones, una que llamaban raw, similar a un staging, y para el equipo técnico, otra analistas donde estaba basicamente el DW y finalmente una donde tenían las métricas accesibles para los usuarios de negocio.

Destacaban de Snowflake la facilidad para la definición de datasets accesibles a diferentes roles de usuario. Parece ser que se trata de "virtual datamarts" que no tienen persistencia física como sucede en las soluciones tradicionales.

Nos hubiera gustado ver algo de la interfaz de trabajo y/o definición de DW pero todo lo que mostraron fueron ppts.

En cualquier caso, se puede ver aquí: https://resources.snowflake.com/youtube-all-videos/snowflake-introduction-demo

↧

La Historia de la Inteligencia Artificial

February 26, 2019, 3:38 am

≫ Next: Descarga el paper con tips para Talend

≪ Previous: Snowflake, The Data Warehouse built for the Cloud

Muy interesantes este par de infografías:

↧

Descarga el paper con tips para Talend

February 27, 2019, 12:49 am

≫ Next: Creating a Big Data Stack

≪ Previous: La Historia de la Inteligencia Artificial

Os damos acceso a un interesante paper de nuestros compañeros de Stratebi, Partners de Talend (la potente solución ETL open source, con versión también Enterprise), que aborda los temas de la integración con Google Big Query, como realizar cargas incrementales y debugging

Descargar paper

Mas info:

Caso Practico: trabajando con APIs y Talend

agosto 29, 2018 destacado, Documentacion, ETL, Talend No comments

En este ejercicio practico, vamos a enriquecer el flujo de datos con API de datos estadísticos. Descargar Documento completo 1 Introducción El propósito de este documento es demostrar como con un pequeño ejemplo se puede establecer un flujo de datos continuo entre la API Idescat y la herramienta Talend. El Idescat expone parte de sus datos a través de una colección de API de tipo REST. Además, la...

Tips y Tecnicas de optimización de Vertica con Talend

agosto 17, 2018 Talend, vertica No comments

Os traemos unos cuantos trucos y recomendaciones sobre dos de nuestras herramientas favoritas: Vertica y Talend Configuring Talend for Use with Vertica To configure Talend for use with Vertica, you must understand: Using Talend Components for Vertica Using the Talend SQL Builder Enabling Parallelization in Talend ...

Data Lakes: Definiciones y Plataformas. Descarga gratuita del White Paper

julio 02, 2018 data lake, Talend No comments

Un gran estudio de más de 40 páginas por parte de Philip Russom, que puedes descargar gratuitamente desde aquí Os dejo a continuación, un resumen de los contenidos y algunos de los principales hallazgos del estudio. Muy interesante. Para saber más de Data Lakes: Diferencias entre Data Lake y Data Warehouse junio 07, 2017 Bases de Datos, data warehouse, teoria No comments Let’s briefly take...

Comparacion entre Talend y Pentaho

mayo 07, 2018 Pentaho, Talend 1 comment

Hace un tiempo os poníamos una primera Comparación entre Pentaho Data Integration Talend Open Studio. Hoy traemos otra comparación interesante: Talend: Talend is an open-source data integration tool whereas Pentaho Kettle is a commercial open-source data integration tool Talend offers limited connectivity to concurrent databases, and other forms of data but has a dependency factor of Java drivers to connect to the data sources...

Comparativa Kettle (Pentaho Data Integration) y Talend

febrero 08, 2018 Documentacion, ETL, Kettle, open source, Talend 3 comments

Hace unos días os hablábamos de que el ETL es crucial y hoy os mostramos una comparativa de las dos mejores herramientas Open Source de ETL (Kettle de Pentaho y Talend), que tampoco empieza a ser arriesgado a decir que se están convirtiendo en las mejores, sobre todo si valoramos el coste y la posibilidad de integración y modificación respecto a Informatica Powercenter, Oracle, Microsoft o IBM Tanto Kettle como Talend son grandes herramientas, muy...

↧

Creating a Big Data Stack

February 28, 2019, 3:16 am

≫ Next: Big Data para Dummies

≪ Previous: Descarga el paper con tips para Talend

Big Data Stack

Sub second interactive queries, machine learning, real time processing and data visualization.

Nowadays there is a lot technology that enables Big Data Processing. However, choosing the right tools for each scenario and having the know-how to use these tools properly, are very common problems in Big Data projects management.

For this reason, we have proposed the Big Data Stack, a choice of tools for Big Data processing based in our experience gathering requirements for Big Data analytics projects. Our stack includes tools for each possible task in a Big Data project, such as ETL (Pentaho Data Integration or Spark), Machine Learning (Spark, R o Python libs), Big Data OLAP (Kylin or Vertica) and also data visualization, using our Lince BI - ST tools (Pentaho BA Server based) or other famous BI tools.

Figure 1. The Big Data Stack for Big Data Analytics (from Stratebi.com)

Sub second interactive queries over tables with billions of rows
While at beginning existing Big Data technology allowed for very efficient data processing (e.g. Apache Hive or Cloudera Impala), analytical query times were no less than minutes or seconds at best-case.

This fact made very hard the use of Big Data technology for the implementation of Data Warehouses, as we know them previously, to support analytics applications that require interactive response, such as dashboards, reporting or OLAP viewers.

Luckily, at the end of 2014 Apache Kylin was introduced. This open source tool is a distributed engine for analytical processing scenarios that provides an SQL interface and supports multidimensional analysis applications (OLAP) on a Hadoop/Spark cluster and over Big Data sources.
The data from sources such as Hive, other common RDBMS (e.g. SQL Server) or even Kafka queues, is pre-agregated and stored in HBase (Kylin cube) by fast and incremental processes using Map Reduce or Spark engines.

These processes are automatically generated based on the cube definition provided by the Kylin users using its web UI. Once the cube is built, the users can perform SQL analytical queries over billions of rows with response times less than the second.

Figure 2. Kylin web UI. Sample query over a cube of 888 million rows was resolved in 0,57 seconds.

Moreover, thanks to the support for J/ODBC connectors and a complete API REST, Kylin can be integrated with any current BI tool. In our case, we have seamlessly integrated Kylin with our Lince BI - ST tools (Pentaho BA Server based): STpivot (OLAP viewer), STReport (reporting ad-hoc) and also with STDashoard (self-service dashboarding).

Digital Marketing analytics real case

As with the other technologies in our stack, we have been able to successfully integrate Kylin into a real Big Data project. This project main goal was to analyze data from digital marketing campaigns (e.g. impressions metrics), customer base and payments for a worldwide company dedicated to develop mobile apps.

In the baseline scenario we have to load and transform more than 100 data sources with a very high volume, although most of them was structured data. Some of the source tables had more than thousand millions of rows of historical data and several millions of news rows were generated per hour.

Until that moment, they processed this data using PHP processes and then stored it into a Data Warehouse infrastructure based on distributing the load between MySQL and Redshift (most complex queries). With this system they achieved loading, refreshing and query times (latency) too slow for their business needs.
Therefore, improving data pre-processing (ETL) and query latency were the main goals of this project.

With these goals in mind, we proposed and implemented an architecture that use a lot of tools from our stack: Sqoop (to load data), Hive (to pre-process data and as source for Kylin), Kylin (to query the resulting Big Data Warehouse with sub second latency) and Lince ST Tools over Pentaho BA Server (to analyze and visualize the aggregated data).

Thanks to the application of these tools, data load and refreshing times were reduced from 30 minutes to about 10 minutes. But the best improvement was the improved query latency due to the use of Apache Kylin, having most of the queries resolved in less than 1 second and between 10x and 100x faster than the initial scenario.

Big Data Analytics Event and Benchmark

After successfully testing the power of the Kylin, we decided to support this technology as a core part of our Big Data solutions. For this reason, we organized a workshop to present our Big Data Stack and Apache Kylin.

The first edition took place in Barcelona, with more than 30 attendees from big companies, most of them professionals in BI area. After the success of this first edition, we organized a second edition in Madrid, with the participation of Luke Han, creator of Kylin and CEO of Kyligence (Kylin Enterprise). We also have talks from companies where we have successfully implemented Kylin.

Figure 3. Big Data Analytics workshop 2ºed with Roberto Tardío (up) and Luke Han talks (down)

Moreover, we presented a benckmark whitepaper where we compare the Big Data OLAP tools, Kylin and Vertica, and also them against PostgreSQL (traditional BD). The results show that Kylin allow us to achieve the best query latency, but Vertica (also part of our stack) is also proved as a very fast OLAP engine.

This last event was a complete success, with more than 40 attendees from large companies based in Spain that use Big Data.

Other applications and use cases of the Stack
In addition to the Big Data OLAP applications discussed, our stack provides tools for others applications such as data quality processes, real time processing and machine learning.

Nowadays, we are carrying a project where we use Spark and its machine leaning libraries to implement a process of data quality to improve direct and promotional marketing. Using Spark we are able to de duplicate the data using advanced statistics or to cross the raw data of customers with addresses dictionaries and geo API’s to normalize and clean it.

Moreover, we can use Kafka to gathering the data sources directly from our apps at real time or others API’s, in order to process it using Spark Streaming and also to load this data in Kylin directly from Kafka, to achieve near real time OLAP cubes.

Therefore, we can conclude that our Big Data Stack enables the successful implementation of most of the current Big Data Analytics scenarios. However, we will continue researching and testing new Big Data tools in order to enrich our Big Data Stack.

↧

Big Data para Dummies

March 3, 2019, 7:09 am

≫ Next: Como funciona Microsoft Power BI? Todo lo que necesitas saber

≪ Previous: Creating a Big Data Stack

Hace unas semanas, nuestro compañero Emilio Arias de Stratebi realizó un Webinar de 'Introducción a Big Data. Big Data para Dummies' para todos aquellos interesados que no tienen una experiencia técnica previa amplia.
Es decir, la introducción perfecta para responsables de Desarrollo de Negocio, Marketing, Financiero o Sistemas que quieran acercarse a este mundo

Este webinar puede complementarse con un Curso de Introducción a Big Data más detallado y práctico de 3 jornadas, que incluye su Certificado de Realización y te permitirá no sentirte nunca más un 'Dummie en Big Data'. Más informacion en: info@stratebi.com

Ver Webinar grabado:

↧

Como funciona Microsoft Power BI? Todo lo que necesitas saber

March 3, 2019, 7:30 am

≫ Next: STDashboard (Web Dashboard Editor open source based), Video Tutorials

≪ Previous: Big Data para Dummies

Todo lo que necesitas saber sobre la herramienta de Data Discovery que está revolucionando la toma de decisiones en las empresas lo tienes aquí:

Para saber más de PowerBI (ver demos online en enlace anterior, cursos e info a continuación):

Big Data para PowerBI

febrero 19, 2019 big data, lincebi, open source, Pentaho, powerBi 4 comments

Power BI es un conjunto de herramientas Business Intelligence (BI) desarrolladas por Microsoft. De reciente aparición, gracias a su simplicidad y potencia se ha hecho un un hueco entre las grandes del mercado como Tableau, Pentaho o Microstrategy. Al igual que estas últimas, implementa la filosofía de Autoservicio para el usuario final (Self Service BI) llevada al extremo de la sencillez, pero con un gran número de características...

Whitepaper gratuito 'Usos de Machine Learning por sectores'

febrero 05, 2019 machine learning, open source 1 comment

Ya tenéis disponible un Estudio muy interesante de más de 60 páginas, que os podéis descargar gratuitamente desde el enlace anterior Que podéis encontrar? Más información: Plataforma Online de Soluciones Big Data y Machine Learning (Demos y Aplicaciones) Aplicación práctica de Machine Learning con Bases de Datos Analyticas. Descargar Paper VideoTutorial Machine Learning para Predicción de Ventas VideoTutorial PowerBI con R Aplicación...

Usando Python con PowerBI

enero 17, 2019 machine learning, powerBi No comments

Muy interesante la nueva funcionalidad que permite el uso de Python en PowerBI, que se añade a la ya conocida capacidad con R, que os comentábamos no hace mucho En este artículo de Tommi Ranta explica paso a paso como preparar un entorno Python, habilitar Python en Power BI, importar datos y aplicar clustering a los datos y crear visualización personalizadas en Power BI utilizando Python. Todo el material necesario para replicar...

Machine Learning Demo Tutorial

enero 08, 2019 machine learning, open source No comments

En este demo tutorial (que puedes probar directamente en el enlace anterior), se han utilizado los datos de la cadena de heladerías para predecir las ventas en función de ciertas variables como el calendario laboral, la temperatura o el número de horas de apertura. Para su implementación se ha seleccionado el algoritmo de regresión GBT (árboles potenciados por gradiente) y se ha utilizado la tecnología Apache Spark que permite...

Como integrar Saleforce y PowerBI

enero 02, 2019 business Intelligence, CRM, powerBi, salesforce No comments

Os contamos las posibilidades de integración de las dos soluciones Business Intelligence y CRM más extendidas del mercado: PowerBI y Salesforce Gracias a la posibilidad de integración de las herramientas se abre una gran cantidad de posibilidades Ahora puede obtener información en tiempo real de los datos de Salesforce mediante la conexión a través de Power BI Según los principales estudios, tanto Salesforce como Microsoft PowerBI lideran...

Videotutorial: Usando R para Machine Learning con PowerBI

septiembre 04, 2018 machine learning, powerBi, R 1 comment

Si te gusta el Business Intelligence, Machine Learning y conoces algo de R, no te puedes perder este Videotutorial: Temario del Videotutorial: 1º Posibilidades de R dentro de Power BI 2º Instalar R y RStudio 3º Matriz de Correlación para el sector Retail 4º Árbol Decisión Titanic 5º Clustering K-Means Estados Unidos 6º Clustering DBSCAN Estados Unidos para detectar Outliers 7º Forecasting Exponencial Smoothing...

Las 50 claves para aprender y conocer PowerBI

agosto 27, 2018 business Intelligence, powerBi, visualizacion No comments

Si tenéis curiosidad por conocer sobre todas las posibilidades de PowerBI, como funciona, integración, costes, etc... no te puedes perder este documento. Altamente recomendable!!! También te puede interesar: Las 50 claves para conocer Futbol Analytics julio 18, 2018 Analytics, big data, open source, Stratebi, Tablero Futbolero No comments Os presentamos un estudio muy...

Descarga Paper gratuito: Zero to beautiful (Data visualization)

agosto 21, 2018 free, gratuito, powerBi, visualizacion No comments

Quieres conocer la mejor manera de contar una historia a través de los datos y la visualización? Pues no te puedes perder este white paper que nos ofrecen desde PowerBI y que te puedes descargar gratuitamente Quieres saber más sobre PowerBI: Demos, Formación, Desarrollo... Info en español Using data visualization to tell a story: You know which charts best represent your data, and you understand best practices for sharing insights. Now it’s...

Top Business Intelligence Tools study

mayo 28, 2018 amazon, business Intelligence, comparativas, estudios de mercado, Information Builders, Pentaho,powerBi, qlikview, SAS, tableau 6 comments

This complete, 300 pages study, is a comprehensive comparative of some of the most important Business Intelligence tools (this study will include new tools in next editions). Has been created by analytics experts Stratebi. This document include in depth features, modules and architecture analysis, considering: - PowerBI - Tableau - Qlikview - Pentaho - SAS - Information Builders - Amazon Quicksight A very complete study for all business...

Tutorial: How to Integrate your Jedox Planning Sheet into Microsoft Power BI Reports

marzo 14, 2018 jedox, powerBi No comments

Muy interesante la integración de dos de nuestras herramientas favoritas: PowerBI y Jedox ...

Working together PowerBI with the best open source solutions

enero 29, 2018 business Intelligence, Dashboards, futbol, lincebi, open source, powerBi 71 comments

Here you can see a nice sample combining PowerBI with open source based Business Intelligence solutions, like LinceBI, in order to provide the most complete BI solution with an affordable cost - Predefined Dashboards - Adhoc Reporting - OLAP Analysis - Adhoc Dashboarding - Scorecards More info: - PowerBI functionalities - PowerBI traini...

octubre 15, 2017

In recent posts, we explained how to fill the gap between Big Data and OLAP, using Tableau, Pentaho and Apache Zeppelin. Now, we´ll show you how to use PowerBI for Big Data Dashboards using Apache Kylin. Also try online in our Big Data Demo site Arquitecture: In this use case we have used together Apache Kylin and Power BI to support interactive data analysis (OLAP) and developing a dashboard, from data source with Big Data features (Volume,...

READ MORE

↧

STDashboard (Web Dashboard Editor open source based), Video Tutorials

March 4, 2019, 6:47 am

≫ Next: Big Data Dictionary: From A to Z

≪ Previous: Como funciona Microsoft Power BI? Todo lo que necesitas saber

You can see on this series of VideoTutorials, the main features of STDashboard (best open source based web dashboarding tool, with no licenses and professional support included) and how it works

STDashboard is part of LinceBI Open Analytics solution

0. STDashboard (Dashboard for end users in minutes)
1. STDashboard (LinceBI Open Source BI/BigData Solution)
2. STDashboard (LinceBI Vertical Dashboarding Solution)
3. STDashboard (Cubes, Schemas and Templates Management)
4. STDashboard (Config, PDF Export, Layouts...)
5. STDashboard (Graphs, Measures and Dimensions)
6. STDashboard (drill through, drill up, filters)
7. STDashboard (Fix Panel, filter between panels)
8. STDashboard (Customizations, Graphs and external content)
9. STDashboard (Extra Tools, Zoom, Aggregate Data)

Know more:

Introducing STMonitoring for Pentaho

febrero 01, 2019 open source, Pentaho No comments

One of the things more useful when you are running a Pentaho production environment with a lot of users accessing the BI server, using reports, dashbords, olap analysis... is monitor the whole user performance. That´s why we´ve created STMonitoring (included free in all of the projects we help to develop and in some solutions, like LinceBI)....

STReport (Web Reporting Open Source based tool) Video Tutorials

enero 31, 2019 reporting open source, streport No comments

You can see on this series of VideoTutorials, main features of STReport (best open source web reporting tool based, with no licenses and professional support included) and how it works STReport is part of LinceBI Open Analytics solution 1. STReport (creating simple report using rows, groups, filters) 2. STReport (Models, exploring categories and glossary) 3. STReport (Work area, hidden sections, limit results, info options...) 4. STReport...

List of Open Source Business Intelligence tools

septiembre 06, 2018 business Intelligence, olap, open source 3 comments

Here you can find an updated list of main business intelligence open source tools. If you know any other, don´t hesitate to write us - Talend, including ETL, Data quality and MDM. Versions OS y Enterprise - Pentaho, including Kettle, Mondrian, JFreeReport and Weka. Versions OS y Enterprise - BIRT, for reporting - Seal Report, for reporting - LinceBI, including Kettle, Mondrian, STDashboard, STCard and STPivot - Jasper Reports, including...

STDashboard, a free license way to create Dashboards

abril 18, 2018 cuadro de mando, dashboard, free, open source 1 comment

The improvements in this version of STDashboard are focused on user interface for panel and dashboard and also some enhancement in performance and close some old bugs. It works with Pentaho and embeded in web applications You can see it in action in this Pentaho Demo Online and as a part of LinceBI suite STDashboard doesn´t requiere anual license, you can manage unlimited users and it´s open source based. STDashboard includes professional...

New features in STDashboard for Pentaho

octubre 26, 2017 dashboard, lincebi, open source, Pentaho, stdashboard 2 comments

The improvements in this version of STDashboard are focused on user interface for panel and dashboard and also some enhancement in performance and close some old bugs. It works with Pentaho versions 5, 6 and 7 You can see it in action in this Pentaho Demo Online About UI improvements: - New set of predefined dashboard templates. We have designed a new way to manage dashboard panels that allow you to shape the dashboard in almost any...

Create Dashboards in minutes with Open Source

mayo 31, 2017 Dashboards, Pentaho No comments

Just a sneak preview of new functionalities we are including in Pentaho in order end user can create their own powerful dashboards in minutes. We call it STDashboard, by our colleagues of Stratebi. These new functionalities include: new templates, panel resize, drag and drop, remove and create panels, Pentaho 7 upgrade... As always and as other Pentaho plugins we´ve created (STPivot, STCard and STReport), they are free and included in all of...

Tutorial: Creacion de Dashboards con soluciones Open Source

enero 17, 2017 cuadros de mando, curso, dashboard 1 comment

Cada vez son más demandados los Cuadros de Mando y la buena noticia es que gran parte de ellos pueden hacerse con soluciones Open Source: Pentaho, CDE, dc.js... Como novedad, también puedes crearlos con StDashboard: How to create your own Dashboards in Pentaho Os incluimos las principales claves para construir potentes Cuadros de Mando, del Curso de creación de Dashboards Open Source: Si os ha interesado, podéis también: -...

12 aplicaciones gratuitas para crear Dashboards

abril 29, 2016 Dashboards, free, open source 11 comments

Muchos de vosotros nos preguntáis sobre los Dashboards, que cada vez son mas demandados para soluciones de todo tipo: Business Intelligence, Real Time, Big Data, IoT, Direccion (EIS), etc... Os traemos una recopilación de 12 soluciones gratuitas para tener cuadros de mando, en algunos casos, además son open source y en otros puedes tenerlo en tus propios servidores sin depender del fabricante de software comercial, como veis hay algunos casos ClicData ...

↧

Big Data Dictionary: From A to Z

March 6, 2019, 1:18 am

≫ Next: 'Comparativa Big Data OLAP Analytics', descarga el paper gratuito

≪ Previous: STDashboard (Web Dashboard Editor open source based), Video Tutorials

A – Association rule mining
B – Bayes belief networks
C – Characterization
D – Deep learning
E – Ensemble learning
F – Forests (i.e., random forests)
G – Gaussian mixture models
H – Hadoop
I – Informatics
JJ – JSON and JAQL
K – K-anything in data mining
L – Local linear embedding (LLE)
M – Multiple weak classifiers
N – Novelty detection
O – One-class classifier
P – Profiling (data profiling)
Q – Quantified and tracked
R – Recommender engines
S – Support Vector Machines (SVM)
T – Tree indexing schemes
U – Unsupervised exploratory analysis
V – Visual analytics
W – WEKA (Waikato Environment for Knowledge Analysis)
X – XML (specifically Predictive Modeling Markup Language)
Y – YarcData
ZZ – Zero bias, Zero variance

View detailed explanation
Full list of Big Data entriesin TodoBI
Our Big Data Aproach architecture for analytics

See in Data Science Central

↧