Quantcast
Channel: Business Intelligence y Big Data: ¡Aprende Gratis sobre Analytics!
Viewing all 575 articles
Browse latest View live

Haciendo funcionar un Cluster Hadoop

$
0
0


Os mostramos un ejemplo de como hacer funcionar un Cluster Hadoop con ejemplos y aplicaciones prácticas:




Se trata de un clúster Hadoop con la distribución de Hadoop de Hortonworks HDP 2.6.5, la cual es 100% open source e incluye las últimas versiones de Apache Hive, Spark, Kafka, Superset, Zeppelin y Druid. Además hemos instalado la herramienta para OLAP con Big Data Apache Kylin con la que hemos implementado algunas de nuestras demos de Big Data Analytics disponibles en Big Data Demos



El clúster está compuesto de 3 máquinas de 32 Gb de Ram y 8 cores, es decir, un total de 96 Gb de Ram y 24 cores disponibles para ser usados por los usuarios de las formaciones que imparten nuestros amigos de StrateBI 


Data Lakes: Definiciones y Plataformas. Descarga gratuita del White Paper

$
0
0

Un gran estudio de más de 40 páginas por parte de Philip Russom, que puedes descargar gratuitamente desde aquí

Os dejo a continuación, un resumen de los contenidos y algunos de los principales hallazgos del estudio. Muy interesante.






Para saber más de Data Lakes:


Diferencias entre Data Lake y Data Warehouse



Let’s briefly take a look at each one: Data. A data warehouse only stores data that has been modeled/structured, while a data lake is no respecter of data. It stores it all—structured, semi-structured, and unstructured. [See my big data is not new graphic. The data warehouse can only store the orange data, while the data lake can store all the orange and blue data.] Processing. Before we can load data into a data warehouse, we first...


Sabes quién creó el término 'Data Lake'?



What is a data lake? A data lake is a repository designed to store large amounts of data in native form. This data can be structured, semi-structured or unstructured, and include tables, text files, system logs, and more. The term was coined by James Dixon, CTO of Pentaho, a business intelligence software company, and was meant to evoke a large reservoir into which vast amounts of data can be poured. Business users of all kinds can dip into...


Predictions: A Cynic’s Guide To BI In 2017



Genial esta descripción de Timo Elliot (uno de los mayores especialistas en Business Intelligence). No tiene desperdicio!! Businesspeople Businesspeople will be dissatisfied with their BI systems (this is “Timo’s First Law of BI”) Executives will refuse to learn to use any other data tool than Excel (and not even the newer features of that). No matter how good the BI system, businesspeople will make bad decisions based on gut feel. Executives...


Talend Big Data



Download whitepaper An enterprise data lake provides the following core benefits to an enterprise: New efficiencies For data architecture through a significantly lower cost of storage, and through optimization of data processing workloads such as datatransformation and integration.  New opportunities For business through flexible “schema-on-read” access to all enterprise data, and through multi-use and multi-workload data processing on...


OLAP for Big Data. It´s possible?



Hadoop is a great platform for storing a lot of data, but running OLAP is usually done on smaller datasets in legacy and traditional proprietary platforms.   OLAP workloads are beginning to migrate to the one data lake that is running Hadoop and Spark. Fortunately, there are a number of Apache projects that are starting to make OLAP possible on Hadoop.  Apache Kylin For an introduction to this interesting Hadoop project, check...


Big Data, casos, tecnologias y aplicaciones reales



Os mostramos a continuación, una buena selección de ejemplos, tecnologías y casos aplicables de Big Data usando las principales tecnologías, con enfoque Data Lake, de la mano de los especialistas de stratebi ...






STPivot sigue mejorando

$
0
0


STPivot, el visor OLAP basado en open source que funciona sobre Pentaho en sus últimas versiones y en plataformas como LinceBI sigue avanzando, poco a poco, con todas las sugerencias y mejoras que nos aportan los usuarios

En este enlace tenéis un entorno de Demo para ir probando. Todo feedback es bienvenido!!


Las novedades son las siguientes 

Añadidas descripciones
  • Ahora se permiten cargar descripciones desde el esquema de Mondrian mediante el atributo “description” para métricas, miembros calculados, dimensiones y cubos.
  • Además, también se permiten añadir y guardar descripciones realizadas por el usuario para objetos creados dentro de la vista. Estos se guardan en el fichero xpivot. Para facilitar la introducción de estas descripciones, se ha rediseñado la interfaz referente a dicho campo tanto en el editor de dimensiones como en el editor de fórmulas.





Ordenación BASC/BDESC
Se ha introducido este tipo de ordenación que permite romper jerarquías al ordenar.
Para dar algo de flexibilidad, se puede intercambiar entre ordenación normal (ASC/DESC) y este nuevo tipo de ordenación mediante un botón de la barra superior.







Filtro por propiedad
Se ha introducido en el editor de dimensiones una nueva funcionalidad que permite dar soporte al uso de Filter en sets creados:
SET [] AS Filter([Dimension<.jerarquia>].[].Members, ([Dimension<.jerarquia>].CurrentMember.Properties("") = ""))

Cuenta con las siguientes características:
  • Respeta el tipo de dato asociado a cada propiedad.
    • En datos numéricos, permite usar una variedad de operadores diversa (>, >=, <, <=).
    • En datos booleanos solo permite alternar entre true o false.
    • En datos tipo fecha, ofrece un selector (datepicker) de fecha, impidiendo la introducción de formatos de fecha no válidos.
  • En caso de que no existan propiedades en el nivel, dicha opción aparecerá deshabilitada.




Esquema XML
  • Se ha movido la edición del esquema XML del panel OLAP de STPivot a la ventana de selección de esquema y cubo. Este cambio surge de la necesidad de evitar que el usuario edite un esquema con cambios incorrectos que invaliden el mismo. Esto provocaba la salida de STPivot sin dar la posibilidad de editarlo nuevamente para subsanar los errores.


Asimismo, se ha introducido una validación mediante XSD sobre el esquema, informando al usuario de errores de especificación del XML.




Corregidos problemas de sincronización entre MDX y la tabla
  • La interacción con la tabla, ya sea para ordenar o hacer un drill, no produce resultados inesperados ni genera discrepancias con la MDX con la que se está trabajando.
  • Se ha recuperado el modo de ordenación natural y el tipo de ordenación aplicado al hacer drill.
  • La correcta sincronización que tiene lugar ahora entre ambos objetos, soluciona todas estas incidencias así como posiblemente otros fallos no detectados y difícilmente reproducibles.
Corrección de bugs y pequeñas mejoras de cara al usuario

Charla Introduccion Bases de Datos Analiticas (Vertica-MonetDB)

$
0
0
Si hace unos días, os dejábamos disponibles la charla de los Open Spaces sobre Real Time Big Data con Apache Storm y el de Apache Cassandra-NoSQL, hoy tenéis el video y la presentación del más que interesante de Bases de Datos Analíticas (orientadas a columnas).

Estas bases de datos nos proporcionan un gran rendimiento en tiempos de consulta para grandes volúmes de datos en entornos analíticos, como son los cubos olap

Si os es útil y os gusta, no dejéis de darnos feedback para continuar con nuevos materiales



También disponible en slideshare:


STAgile, simple, just Dashboards in seconds

$
0
0

Now, you can create powerful Dashboards from excel for end users, with no single line of code. Just in seconds!! with STAgile, an open source based solution, with no licenses.

The best tool for non technical end users.



All the modules you can find in LinceBI are the right solution if you don´t want to pay licenses and you need profesional support

Besides, you have 'predefined industry oriented solutions', with a lot of KPIs, Dashboards, reports...


You can use STAgile, standalone or embed in your web application


LinceBI OLAP open source based Analytics

$
0
0

Now, you can create powerful OLAP Analysis for end users, with no single line of code. Just in seconds!! with STPivot, an open source based solution, with no licenses.

The best tool for non technical end users.




All the modules you can find in LinceBI are the right solution if you don´t want to pay licenses and you need profesional support


Besides, you have 'predefined industry oriented solutions', with a lot of KPIs, Dashboards, reports...

You can try and see in action here 

STPivot Documentation

Even, STPivot supports Big Data Analysis thanks to it´s powerful Big Data Analytics Module




Machine learning con Pentaho

$
0
0



Con Pentaho podrás implementar todas las fases de soluciones que usen Machine Learning. Os indicamos:



Step 1
GENERIC DATA PREPARATION/FEATURE ENGINEERING




















Step 2
TRAIN, TUNE, TEST MACHINE LEARNING MODELS TO
IDENTIFY THE MOST ACCURATE MODEL




















Step 3
DEPLOY PREDICTIVE MODELS IN PENTAHO



Step 4
DYNAMICALLY UPDATING PREDICTIVE MODELS




The Timeline of Statistics (Machine Learning)


Para todos los amantes de la estadistica, Machine Learning y Data Mining.  Pincha y descargatelo!! ...

La Tabla Periodica interactiva del Machine Learning


Que gran visualización y que útil, pincha en la tabla periódica para descubri...

Las mejores APIs para Machine Learning


Face and Image Recognition Animetrics Face Recognition:  Betaface:   Eyedea Recognition:  Face++:  FaceMark:  FaceRect:  Google Cloud Vision API:  IBM Watson Visual Recognition:  Kairos: Microsoft Cognitive Service - Computer Vision:  Rekognition:  Skybiometry Face Detection and Recognition:  Text Analysis, NLP, Sentiment Analysis Bitext  Diffbot Analyze:  Free Natural...

Curso en Madrid de Machine Learning


13, 14 de Junio, Madrid Hace poco os contábamos en detalle sobre Machine Learning, ahora os proponemos la posibilidad de formaros en este interesante y eminentemente práctico Curso presencial en Madrid, para aprender sobre lo que allí os contábamos Echa un vistazo a algunos ejemplos de de aplicación en Big Data Son plazas limitadas, por lo que no lo dejéis escapar Inscripcion ...

Que algoritmo de Machine Learning elegir para cada problema?


Dado que existen muchos algoritmos, como hemos venido contando ultimamente, (si quieres asistir a un Curso, mira al final del post) os vamos a dar unas pistas para ayudaros:  1. Cuando usar Machine Learning Lo primero que tenemos que tener en cuenta es que, aunque hablar y usar Machine Learning es una tendencia y es 'cool', debemos ser conscientes de que sea de utilidad. Hemos visto que los Data Scientist están de moda pero muchos abandonan...

Por que muchos Data Scientist estan dejando sus trabajos?


Muy revelador lo que nos cuentan en este articulo del Towards Data Science, y que coincide con muchas situaciones y casos reales que conocemos y que se están produciendo. La frustración con el día a día del trabajo de los Data Scientist, respecto a las expectativas es importante (muchos conocéis que es llamado 'el trabajo más atractivo del siglo XXI'). La realidad es que muchos abandonan sus puestos de trabajo en grandes compañías, cuando parecían...

Nueva solucion Machine Intelligence: Pentaho, R, Python y Spark juntos para Machine Learning Analytics


Se acaba de presentar Machine Intelligence: el plugin para Pentaho Data Integration que facilita enormemente la ejecución de algoritmos sobre tecnologías Machine Learning, orquestados desde un completo entorno gráfico ETL Gracias a este plugin puedes convertir algoritmos de machine learning en 'steps' de PDI desde R, Python, Spark y Weka Gracias a este plugin consigues de forma sencilla: Hacer Machine Learning mucho más sencillo de...

Curso gratuito de Machine Learning por Google


Gran curso el que ofrece Google sobre Machine Learning, aprendizaje automático. Os lo recomendamos (Curso) Mas sobre Machine Learning: - Las 53 claves para conocer Machine Learning ...

Quieres trabajar en Big Data/Analytics y tienes ganas de aprender?


Tenemos un plan de formación y carrera para profesionales con una base inicial y muchas ganas de aprender. Escríbenos a rrhh@stratebi.com (Marzo 2018) Podrás participar en proyectos y en desarrollos con las tecnologías más modernas, como Dashboards en tiempo real. Hemos creado también la solución LinceBI, que está revolucionando el Business Intelligence basado en open source El trabajo puede ser presencial en Madrid o remoto, en cualquier parte...

Curso de PowerBI, no te lo pierdas!!

$
0
0


Power BI es un conjunto de aplicaciones de análisis de negocios que permite analizar datos y compartir información. ¡Es la solución perfecta destinada a la inteligencia empresarial!

Conoce sus características técnicas



Con Power BI podrás crear potentes informes utilizando diferentes fuentes de datos: SAP HANA, MySQL, Teradata, IBM DB2, Dynamics Navision, CRM, SQL. Archivos de Excel, .CSV, JASON o descargar datos procedentes de servicios en línea como Facebook, Google Analytics, CRM de Salesforce, Marketo, MailChimp...

Curso Online de Power BI (temario y registro)


Fecha: Del 18 de jul. al 19 de jul. de 2018
Horario: 15:00 h - 21:00 h ( CEST - Madrid)
Lugar: Plataforma web con profesor



Big Data para PowerBI



Power BI es un conjunto de herramientas Business Intelligence (BI) desarrolladas por Microsoft. De reciente aparición, gracias a su simplicidad y potencia se ha hecho un un hueco entre las grandes del mercado como Tableau, Pentaho o Microstrategy.  Al igual que estas últimas, implementa la filosofía de Autoservicio para el usuario final (Self Service BI) llevada al extremo de la sencillez, pero con un gran número de características...


Working together PowerBI with the best open source solutions



Here you can see a nice sample combining PowerBI with open source based Business Intelligence solutions, like LinceBI, in order to provide the most complete BI solution with an affordable cost - Predefined Dashboards - Adhoc Reporting - OLAP Analysis - Adhoc Dashboarding - Scorecards More info: - PowerBI functionalities - PowerBI traini...



Humor Analytics

$
0
0



Más humor en Analytics que te puede interesar:


Las 7 personas que necesitas en tu equipo de datos



Great and funny data info in Lies, Damned Lies 1. The Handyman The Handyman can take a couple of battered, three-year-old servers, a copy of MySQL, a bunch of Excel sheets and a roll of duct tape and whip up a basic BI system in a couple of weeks. His work isn’t always the prettiest, and you should expect to replace it as you build out more production-ready systems, but the Handyman is an invaluable help as you explore datasets...


Ebook gratuito, La Consultoria con Humor



Ya podéis bajaros el libro de 'La Gacela de Wirayut' para leer en vuestro tablet preferido de forma gratuita, en formato pdf. A todos los que habéis trabajado, trabajais en el mundo de la consultoría, o habéis tratado con consultores, seguro que hay muchas cosas que os resultan familiares. Se da un repaso a la inutilidad de muchas reuniones de trabajo, la relación con los jefes, el uso del e-mail y de internet, la hipocresía en muchas empresas. Un...


Analytics humour



Great!! Please, advise: 'Do insights, not charts...


Predictions: A Cynic’s Guide To BI In 2017



Genial esta descripción de Timo Elliot (uno de los mayores especialistas en Business Intelligence). No tiene desperdicio!! Businesspeople Businesspeople will be dissatisfied with their BI systems (this is “Timo’s First Law of BI”) Executives will refuse to learn to use any other data tool than Excel (and not even the newer features of that). No matter how good the BI system, businesspeople will make bad decisions based on gut feel. Executives...


Los peores graficos del mundo



Gráficos hay muchos: buenos, regulares y malos. En esta ocasión os hemos seleccionado aquellos fuera de categoría y de cualquier uso sensato posible, :-)     Continuará....


The Expert (Short Comedy Sketch)


Genial!! Seguro que te has encontrado algo similar en una reunión Ponedle los substitulos en la parte inferior derecha ...


Vamos a usar Big Data



Genial... ...


Buscando el Pie Chart definitivo



Un poco de humor, ...


Visualizaciones, nos hemos vuelto locos!!



La proliferación del interés en la visualización de datos ha hecho que se cometan auténticas barbaridades a la hora de representar la información. En la web, wtfviz.net/  , hacen una gran recopilación con bastantes ejemplos. Mezclando New York City con los Estudiantes, en el mismo plano Mi no entender Jugando al Comecocos Mi no entender II No querías tartas en el Cuadro de Mando...


Como hacer un buen pie chart: por fin explicado


Gran videotutorial sobre como hacer uno de nuestros elementos gráficos 'preferidos': el Pie Chart (con gran sentido del humor) ...


En tierra extraña (cuando se llega a una empresa ‘cliente’)



En muchos de los trabajos actuales, sobre todo en aquellos englobados en lo que se llaman servicios profesionales, tales como consultores, auditores y outsourcing es práctica habitual trabajar en las oficinas del cliente. Por tanto, dado que cada vez más profesionales desarrollan su trabajo en un lugar diferente al suyo, se hace necesario observar detenidamente cual es la mejor forma de llevar a cabo nuestras tareas laborales en...




Visto a través de Diego Arenas, @darenasc Normal 0 21 false false false ES X-NONE X-NONE ...


Chistes sobre Business Intelligence



De vez en cuando añadimos una nota de humor (ver otras entradas) al mundo del Business Intelligence. Hoy una buena recopilación de chistes: Visto en v1s...


Usuarios y Programadores



Un poco de humor para acabar la semana... ...


Las Reuniones de Trabajo



De todos es sabido que gran parte del tiempo que pasamos en el trabajo transcurre en lo que habitualmente llamamos reuniones.A la hora de computar este tiempo debemos sumar todo aquello referente a la convocatoria de la reunión, establecer la agenda, reserva de la sala, disponer de los medios necesarios, redacción de actas, aprobaciones, acciones a realizar, nuevas convocatorias, etc... de modo que la reunión se convierte en un proceso cíclico que...


Humor analisis predictivo



Una nota de humor BI para cerrar la semana, de John Klossn...

Explicacion sencilla de arquitecturas Business Intelligence

$
0
0

En este post muy útil, se hace un repaso a las diferentes alternativas en que la información puede ser consumida por los usuarios y las diferentes formas de almacenamiento de la misma. 

Habría que decir, que todas ellas son formas de analizar la información y tomar decisiones, esto es, Business Intelligence; aunque en rigor, sólo las más óptimas en cuanto a uso de Data Marts DW y optimización del acceso por los usuarios, se consideran de forma habitual como propias del BI.

Os muestro los gráficos de las diferentes alternativas y una comparativa. 

Nuestra opinión, aparte de las buenas prácticas de diseño y arquitectura, es que debemos ser conscientes de los requerimientos, necesidades y condicionantes de las empresas y clientes, puesto que en muchas ocasiones se tratará de 'balancear' entre lo correcto desde el punto de vista teórico y lo factible desde el punto de vista práctico y real, que no siempre coinciden.


1
1. Sistema de Información Transaccional



2
2. Sistema de Información con transaccional replicado


3
3. Sistema de Información con Data Marts



4
4. Sistema de Información con un DataWarehouse empresarial



5
5. Comparativa de caracteristicas


Gracias a Nick Goodman

Las 50 claves para conocer Futbol Analytics

$
0
0



Os presentamos un estudio muy interesante sobre Fútbol Analytics, un área que está teniendo un crecimiento espectacular, gracias al uso de Big Data, Machine Learning, Internet of Things, etc... 
Temas que nos apasionan en este Portal. 

Nuestros compañeros de Stratebi, especialistas en este ámbito y que ya han colaborado con algún club de fútbol de Primera División, os dan las 50 claves para estar al día en Fútbol Analytics



También os incluimos abajo, información de otros documentos publicados y demos que os pueden ser de interés:


Aplicando Business Intelligence y Open Source a la analitica de datos en el Futbol



Para todos los apasionados de las Estadísticas, del Futbol y del Open Source os presentamos la versión actualizada de Tablero Futbolero Incluye las estadísticas de las ultimas 9 temporadas. Algunas caracteristicas: - Creado con Business Intelligence Open Source: Pentaho, PDI Kettle, Mondrian, STPivot, MySQL... - Compatible con dispositivos móviles - Ficha de jugador, equipo, partido, arbitro - 11 ideal (simulación) - Comparativa Real Madrid...


Fútbol Analytics



Here you can see a nice sample combining PowerBI with open source based Business Intelligence solutions, like LinceBI, in order to provide the most complete BI solution with an affordable cost - Predefined Dashboards - Adhoc Reporting - OLAP Analysis - Adhoc Dashboarding - Scorecards More info: - PowerBI functionalities - PowerBI traini...


Las 53 Claves para conocer Machine Learning



Si hace unos días os presentábamos las 69 claves para conocer Big Data, que ya lleva más de 2.500 visitas, hoy os traemos las 53 Claves para conocer Machine Learning.  Que lo disfrutéis, si quereis conocer más o practicar, tenemos cursos Tambien os recomendamos: Una breve historia del Machine Learning ...


Mas de 20 Tecnicas y Tipos de Analisis Big Data



A continuación, os detallamos las principales técnicas y tipos de análisis que se realizan en Big Data, muchas veces agrupadas bajo nombres como algoritmos, machine learning, etc.... pero que no siempre se explican correctamente Aquí os hemos creado algunos ejemplos online usando algunas de estas técnicas Si quieres saber más, puedes consultar también otros posts relacionados: - Las 53 Claves para conocer Machine Learning - 69 claves...



69 claves para conocer Big Data



Presentación sencilla, útil y muy clarificadora... Quizás te interese también: Big Data para Dummies y 53 Claves para conocer Machine Learning...

Aprende Machine Learning con Facebook

$
0
0

Gran iniciativa de Facebook, que nos explica en 6 videos como aplicar Machine Learning en casos concretos, siguiendo el siguiente patrón:

1. Problem definition
2. Data
3. Evaluation
4. Features
5. Model
6. Experimentation


Muy recomendable

Tips y Tecnicas de optimización de Vertica con Talend

$
0
0

Os traemos unos cuantos trucos y recomendaciones sobre dos de nuestras herramientas favoritas: Vertica y Talend

Configuring Talend for Use with Vertica
To configure Talend for use with Vertica, you must understand:

Using Talend Components for Vertica

Talend provides a number of Vertica-specific components that you can use to manage your ETL jobs. Understanding the ETL flow and loading guidelines can help you determine which components to use, and how best to use them.

Understanding ETL Flow and Loading Guidelines

Understanding the basic ETL flows helps you decide which Vertica component and options to use. This section addresses the following load types:


Type of Load Use this COPY Option Results
Small Bulk Load COPY (<100mb font="">100mb>AUTO
  • Writes to WOS.
  • Spills to ROS when WOS overflows.
Large Bulk Load COPYDIRECT
  • Writes to ROS.
  • Each commit becomes a new ROS container.
Incremental Load COPYTRICKLE
  • Writes to WOS.
  • Errors when WOS overflows.
Follow these guidelines when loading data into Vertica:
  • Use COPY to load large amounts of data. Using COPY avoids fragmenting the WOS and doesn't require the overhead that using INSERT does.
  • If your row count is small (fewer than 1000 rows), use INSERT.
  • Load multiple streams on different nodes.
If you are using the INSERT INTO...SELECT...FROM syntax in ETL jobs with large volumes, be sure to use the following syntax.


=> INSERT /+*direct*/ INTO table SELECT…

Commonly Used Vertica Specific Talend Components

The following Talend 6.4.1 components are specifically for use with Vertica:
Component Description
tVerticaInputExtracts data from Vertica.
tVerticaBulkExecLoads from a file.
tVerticaOutputBulkWrites to a file.
tVerticaOutputBulkExecWrites to a file and loads the data.
tVerticaOutputInserts or updates rows into a Vertica table.
tVerticaRowExecutes the SQL query stated against the Vertica database.

tVerticaInput

The tVerticaInput component allows you extract data from Vertica. Give special attention to the DATE and VARCHAR fields, as follows: 
  • DATE fields—All DATE fields must be in MM-DD-YYYY format. Check your DATE fields and correct the format wherever necessary, as shown in the following dialog box.
image003.png
  • VARCHAR fields—Talend examines a sampling of the data when determining the size of the VARCHAR field. If the table contains large VARCHAR values, consider increasing the default column size.
Note

 You can also use the tMap component to transform or remap the data type.

tVerticaOutput

tVerticaOutput provides options that you can change, depending on the size and type of load. Specifically, you should change the Action on Data and Action on Table options, as described in the following sections.
Basic Settings for Trickle or Incremental Loads (Writing to WOS)
Set the Actionon Table and Action on Data options according to your use case. For trickle or incremental loads, set Action on Data to INSERT.

image004.png
Advanced Settings for Trickle or Incremental Loads (Writing to WOS)
When writing to the WOS, use the default values for Advanced Settings as follows.

image005.png

To enable fields for INSERT, UPDATE, and DELETE, select the Use field options checkbox. The default settings in the previous graphic generate the following SQL statements:


2018-05-15 05:24:36.797 Init Session:7f17b3fff700 [Session]  [PQuery]
TX:0(v_target_l1_node0001-40400:0x1091f) INSERT INTO public.VarChar4k_Table
(DataTypeSet,ValueDesc,VarChar4k_Column) VALUES (?,?,?)

Note

These default settings do not generate a COPY statement.
Basic Settings for Large, Bulk Loads (Writing to ROS)
For large, bulk loads, use the DIRECT syntax to write to ROS. To do so, you must set the Action on data option to COPY. 

image006.png
Advanced Settings for Large, Bulk Loads (Writing to ROS)
When using COPY, use Advanced Settings to specify filenames and locations for exception files.

image007.png

The settings in the preceding graphic generate the following SQL statements:


2018-05-15 05:19:44.584 Init Session:7f17fd7ca700-a0000000044bf8 [Txn] 
Rollback Txn: a0000000044bf8 'COPY public.VarChar4k_Table
(DataTypeSet,ValueDesc,VarChar4k_Column) FROM local STDIN UNCOMPRESSED WITH DELIMITER ';'
RECORD TERMINATOR '' ENCLOSED BY '|' NULL AS '' EXCEPTIONS 'C:/data/except_file.txt'
REJECTED DATA 'C:/data/except_records.txt' DIRECT NO COMMIT'

tVerticaOutputBulkExec

The tVerticaOutputBulkExec component writes to a file and then copies the data using standard input (STDIN).
Basic Settings
image008.png
Advanced Settings
By default, tVerticaOutputBulkExec writes to the ROS.

image009.png

The settings in the preceding graphic result in the following SQL statements:


2018-05-15 05:20:44.526 Init Session: 7f17b37fe700-a0000000044c10
[Txn]
Starting Commit: Txn: a0000000044c2d 'COPY
datatype_ss.VarChar_Table FROM local STDIN DELIMITER ';' NULL 'null'
DIRECT returnrejected'

tVerticaRow

The tVerticaRow component allows you to specify any valid Vertica SQL statements, including COPY statements.  Use tVerticaRow to load data into Vertica flex tables, or for other scenarios that require Vertica structures that are not supported with custom Talend components. 
Example: High-Performance COPY
In the following example, the source file is on the Vertica server and uses the high-performance Vertica COPY (not COPY FROM LOCAL). Whenever the source files are on the Vertica cluster, load data using high-performance COPY.
"COPY talend.store_target FROM '/home/dbadmin/store.csv' DELIMITER ';' 
NULL '' DIRECT;"
Example: Loading into Flex Tables
This example shows how to run the Vertica flex example included in the Vertica package directory.
To create the flex table:
=> CREATE FLEX TABLE mountains();
To load data to the flex table:
=> COPY mountains FROM 
'/opt/vertica/packages/flextable/examples/mountains.json'
   PARSER FJSONPARSER();
To create the view of the flex table:
=> SELECT COMPUTE_FLEXTABLE_KEYS_AND_BUILD_VIEW('mountains');
Example:  Performing Vertica-to-Vertica COPY
This example shows a Vertica-to-Vertica COPY:


“CONNECT TO VERTICA vmart USER dbadmin PASSWORD '' ON 
'VertTest01',5433;COPY customer_dimension FROM  VERTICA
vmart.customer_dimension DIRECT;”

You can also use tVerticaRow to copy from Vertica to Vertica when no transformations are required. To do so, you need to perform additional steps to define the export addresses.
Connecting to a public network requires some configuration. For information about using this statement to copy data across a public network, see Using Public and Private IP Networks in the Vertica documentation.

Using Generic Talend ELT Components with Vertica

The ELT family of components group together database connectors and processing components for ELT mode, where the target DBMS becomes the transformation engine.  When possible, SQL statements are combined and processed in a single query on the database. The following illustration shows how Talend supports ELT with Vertica. This example uses the generic components for the entire job. 

image011.png
When this job runs, Talend generates the following SQL statements:


=> INSERT  INTO store.regional_sales (store_name,store_city,store_region,sales_quantity,
sales_dollar_amount)

(SELECT Store.store_dimension.store_name , Store.store_dimension.store_city ,
Store.store_dimension.store_region , sum(store.store_sales_fact.sales_quantity),
sum(store.store_sales_fact.sales_dollar_amount) FROM Store.store_dimension INNER JOIN
store.store_sales_fact ON

( store.store_sales_fact.store_key = Store.store_dimension.store_key )

group by Store.store_dimension.store_name,
Store.store_dimension.store_city,Store.store_dimension.store_region )

Other Components for Bulk Loading

The tVerticaOutputBulk and tVerticaBulkExec components are generally used together in a two-step process. First, an output file is generated. In the second step, the output file is used in the INSERT operation that loads data into a database.
You can also choose to do both steps at once using the tVerticaOutputBulkExec component.  However, using tVerticaOutputBulk and tVerticaBulkExec allows the data to be transformed before it is loaded in the database.

Using the Talend SQL Builder

When using the SQL builder, be sure to include the schema name in the query:
=> SELECT * FROM store.store_dimension;

Enabling Parallelization in Talend

You can enable parallelized data flows. To do so, partition an input data flow of a Talend subjob into parallel processes and execute these processes simultaneously.    

Enabling Parallelization in the Talend Enterprise Edition

If you are using the Talend Enterprise Edition, you can enable or disable the parallelization with a single click. Talend Studio then automates the implementation across a given job.  For more information about this feature, click the following link:

Enabling Parallelization in the Talend Community Edition

If you are using the Talend Community Edition, add a WHERE clause to the original query to chunk the data.  This example results in four chunks.
original_sql + " and hash(" + primaryKey + ") % " + noOfThreads + " = " + i
Example:


=> SELECT if.* FROM inventory_fact if, warehouse_dimension wd WHERE
   if.warehouse_key=wd.warehouse_key

The preceding query chunks the SELECT operation into the following four queries:


=> SELECT if.* FROM inventory_fact if, warehouse_dimension wd WHERE
  if.warehouse_key=wd.warehouse_key AND HASH(product_key, date_key) % 4=1;
=> SELECT if.* FROM inventory_fact if, warehouse_dimension wd WHERE
  if.warehouse_key=wd.warehouse_key AND HASH(product_key, date_key) % 4=2;
=> SELECT if.* FROM inventory_fact if, warehouse_dimension wd WHERE
  if.warehouse_key=wd.warehouse_key AND HASH(product_key, date_key) % 4=3;
=> SELECT if.* FROM inventory_fact if, warehouse_dimension wd WHERE
  if.warehouse_key=wd.warehouse_key AND HASH(product_key, date_key) % 4=4;
Choose keys that have equal distribution. For example, the two keys chosen in the preceding example provide the following counts:

Key : 235164 Value : product_key , Key : 50148 Value : date_key
count, chunk
7501441, 1
7500008, 2
7497028, 0
7501523, 3

Formacion Data Engineer: Machine Learning con Spark

$
0
0

Uno de los capítulos más interesante del curso 'Curso de Data Engineers'de nuestros compañeros de Stratebi es el 11. Machine Learning con Spark

Este curso incluye ejercicios prácticos sobre nuestro Cluster. Os dejamos unas pinceladas del contenido de este capítulo:








Descarga Paper gratuito: Zero to beautiful (Data visualization)

$
0
0

Quieres conocer la mejor manera de contar una historia a través de los datos y la visualización? Pues no te puedes perder este white paper que nos ofrecen desde PowerBI y que te puedes descargar gratuitamente

Quieres saber más sobre PowerBI: Demos, Formación, Desarrollo... Info en español

Using data visualization to tell a story:

You know which charts best represent your data, and you understand best practices for sharing insights. Now it’s time to bring the insights and charts together to explore the stories hidden in all the raw information: time to ask questions and challenge assumptions.




AI, Machine and Deep Learning timeline

Descarga Paper gratuito: Funciones avanzadas de Vertica para Machine Learning

$
0
0

Tenéis a vuestra disposición un paper con funciones avanzadas de Vertica para Machine Learning. Si te interesa, escríbenos y te lo mandamos




Funciones de Vertica para el Machine Learning. Ya vienen con Vertica, por lo que:

i), no requieren programación ni instalación, 

ii), son más eficientes que otras opciones como la integración con Python/Pandas, 

iii) se aplican sobre tablas o vistas, 

iv) implementan los algoritmos más conocidos de Machine Learning. Además, son muy sencillas de usar y aprovechan la potencia de ejecución distribuida de un clúster Vertica.


En el siguiente diagrama se muestran las funciones nativas de Vertica para la analítica avanzada. 



Estas cubren todas las fases de una aplicación de Machine Learning (Pipeline de una aplicación ML): Análisis de datos origen para entender mejor el negocio, preparación de los datos, Modelado, Evaluación de los modelos generados y puesta en producción para la aplicación del modelo.

Ejemplo de modelos explicados en el paper:


Ejercicio practico de Machine Learning con Jupyter Notebooks, Anaconda y Python 3

$
0
0


Que mejor forma que aprender de Machine Learning, con algunas de las tecnologías mas potentes y completas, que mediante la realización de un buen ejercicio práctico.

Podéis seguir el tutorial práctico en el video y también utilizar la presentación.












Esperamos que os sea útil!!



Las 50 claves para aprender y conocer PowerBI

$
0
0

Si tenéis curiosidad por conocer sobre todas las posibilidades de PowerBI, como funciona, integración, costes, etc... no te puedes perder este documento. 

Altamente recomendable!!!



También te puede interesar:

Las 50 claves para conocer Futbol Analytics



Os presentamos un estudio muy interesante sobre Fútbol Analytics, un área que está teniendo un crecimiento espectacular, gracias al uso de Big Data, Machine Learning, Internet of Things, etc...  Temas que nos apasionan en este Portal.  Nuestros compañeros de Stratebi, especialistas en este ámbito y que ya han colaborado con algún club de fútbol de Primera División, os dan las 50 claves para estar al día en Fútbol Analytics También...



Las 53 Claves para conocer Machine Learning



Si hace unos días os presentábamos las 69 claves para conocer Big Data, que ya lleva más de 2.500 visitas, hoy os traemos las 53 Claves para conocer Machine Learning.  Que lo disfrutéis, si quereis conocer más o practicar, tenemos cursos Tambien os recomendamos: Una breve historia del Machine Learning ...



69 claves para conocer Big Data



Presentación sencilla, útil y muy clarificadora... Quizás te interese también: Big Data para Dummies y 53 Claves para conocer Machine Learning...


Saber más sobre PowerBI:


Big Data para PowerBI



Power BI es un conjunto de herramientas Business Intelligence (BI) desarrolladas por Microsoft. De reciente aparición, gracias a su simplicidad y potencia se ha hecho un un hueco entre las grandes del mercado como Tableau, Pentaho o Microstrategy.  Al igual que estas últimas, implementa la filosofía de Autoservicio para el usuario final (Self Service BI) llevada al extremo de la sencillez, pero con un gran número de características...

Working together PowerBI with the best open source solutions



Here you can see a nice sample combining PowerBI with open source based Business Intelligence solutions, like LinceBI, in order to provide the most complete BI solution with an affordable cost - Predefined Dashboards - Adhoc Reporting - OLAP Analysis - Adhoc Dashboarding - Scorecards More info: - PowerBI functionalities - PowerBI traini...


Comparativa de Costes Tableau vs PowerBI



  Os dejamos un documento listo para descargar, con una comparativa muy completa de costes entre Tableau y PowerBI (hay que decir que el informe ha sido encargado por Tableau, por lo que puede tener cierto sesgo).  Por ejemplo, en cuanto al esfuerzo de este tipo de proyectos, si tenemos en cuenta que ambas son herramientas de Data Discovery (usuario final), no se tiene suficientemente en cuenta la parte más importante, el modelado,...

Caso Practico: trabajando con APIs y Talend

$
0
0


En este ejercicio practico, vamos a enriquecer el flujo de datos con API de datos estadísticos.

Descargar Documento completo


1      Introducción

El propósito de este documento es demostrar como con un pequeño ejemplo se puede establecer un flujo de datos continuo entre la API Idescat y la herramienta Talend.

El Idescat expone parte de sus datos a través de una colección de API de tipo REST. Además, la API del Idescat ofrece métodos (GET principalmente) para que los programas de terceros puedan obtener información del Instituto de Estadística de Cataluña e integrarla en otros servicios.


Las peticiones sobre la API se componen siempre de un servicio, una versión, una operación, formato y parámetros opcionales.

Los servicios disponibles son:

  • Indicadores al día: proporciona información básica de una selección de indicadores de Cataluña.
  • Búsqueda de población: proporciona información de la población por sexo de cualquier entidad territorial de Cataluña.
  • Rectificaciones:da acceso a la información del registro de rectificaciones del sitio web del Idescat.
  • Municipio en cifras: acceso a información estadística básica comparativa de municipios, comarcas y Cataluña.
  • Calendario de difusión de resultados: información del calendario del Idescat de difusión de resultados.
  • Días Internacionales: Api desactivada en 2013.
  • Onomástica: información estadística de nombres y apellidos de la población y nombres de los recién nacidos.
  • Incrustaciones:proporciona contenido asociado que puede ser incrustado en páginas de terceros.


Cada uno de los servicios de la API tienen operaciones comunes y/o propias para la solicitud de las peticiones.
Para una mayor referencia sobre todo en términos de parametrización de la API suministramos el siguiente enlace: https://www.idescat.cat/dev/api/?lang=es, donde se encontrarán los servicios mencionados y una mayor documentación de la misma.

Por parte de Talend se dispondrá de un ejercicio que solicitará datos a la API, los cuales serán tratados y comparados con los documentos Excel suministrados.



Viewing all 575 articles
Browse latest View live