ETL(Extraction-Transformation-Loading)數(shù)據(jù)抽取、轉(zhuǎn)換和加載。
ETL軟件開(kāi)發(fā)工程師簡(jiǎn)稱(chēng)ETL工程師,是從事系統(tǒng)編程、數(shù)據(jù)庫(kù)編程與設(shè)計(jì),要掌握各種常用的編程語(yǔ)言的專(zhuān)業(yè)技術(shù)人員。也叫數(shù)據(jù)庫(kù)工程師。
ETL負(fù)責(zé)將分布的、異構(gòu)數(shù)據(jù)源中的數(shù)據(jù)如關(guān)系數(shù)據(jù)、平面數(shù)據(jù)文件等抽取到臨時(shí)中間層后進(jìn)行清洗、轉(zhuǎn)換、集成,最后加載到數(shù)據(jù)倉(cāng)庫(kù)或數(shù)據(jù)集市中,成為聯(lián)機(jī)分析處理、數(shù)據(jù)挖掘的基礎(chǔ)。
ETL是數(shù)據(jù)倉(cāng)庫(kù)中的非常重要的一環(huán)。它是承前啟后的必要的一步。相對(duì)于關(guān)系數(shù)據(jù)庫(kù),數(shù)據(jù)倉(cāng)庫(kù)技術(shù)沒(méi)有嚴(yán)格的數(shù)學(xué)理論基礎(chǔ),它更面向?qū)嶋H工程應(yīng)用。所以從工程應(yīng)用的角度來(lái)考慮,按著物理數(shù)據(jù)模型的要求加載數(shù)據(jù)并對(duì)數(shù)據(jù)進(jìn)行一些系列處理,處理過(guò)程與經(jīng)驗(yàn)直接相關(guān),同時(shí)這部分的工作直接關(guān)系數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)的質(zhì)量,從而影響到聯(lián)機(jī)分析處理和數(shù)據(jù)挖掘的結(jié)果的質(zhì)量。
數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)獨(dú)立的數(shù)據(jù)環(huán)境,需要通過(guò)抽取過(guò)程將數(shù)據(jù)從聯(lián)機(jī)事務(wù)處理環(huán)境、外部數(shù)據(jù)源和脫機(jī)的數(shù)據(jù)存儲(chǔ)介質(zhì)導(dǎo)入到數(shù)據(jù)倉(cāng)庫(kù)中;
在技術(shù)上,ETL主要涉及到關(guān)聯(lián)、轉(zhuǎn)換、增量、調(diào)度和監(jiān)控等幾個(gè)方面;數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)中數(shù)據(jù)不要求與聯(lián)機(jī)事務(wù)處理系統(tǒng)中數(shù)據(jù)實(shí)時(shí)同步,所以ETL可以定時(shí)進(jìn)行。但多個(gè)ETL的操作時(shí)間、順序和成敗對(duì)數(shù)據(jù)倉(cāng)庫(kù)中信息的有效性至關(guān)重要。
ETL工程師崗位職責(zé):
1. 海量數(shù)據(jù)的ETL開(kāi)發(fā),抽取成各種數(shù)據(jù)需求。
2. 參與數(shù)據(jù)倉(cāng)庫(kù)架構(gòu)的設(shè)計(jì)及開(kāi)發(fā) 。
3. 參與數(shù)據(jù)倉(cāng)庫(kù)ETL流程優(yōu)化及解決ETL相關(guān)技術(shù)問(wèn)題。
4、熟悉主流數(shù)據(jù)庫(kù)技術(shù),如oracle、db2、Sql server等。
5、精通ETL架構(gòu),有一定的etl開(kāi)發(fā)經(jīng)驗(yàn),了解日常作業(yè)的部署和調(diào)度。
6、熟悉ETL開(kāi)發(fā)工具,如Datastage,Congos,Kettle等。
ETL工程師發(fā)展方向:
ETL工程師,涉及到的領(lǐng)域廣泛,就業(yè)范圍廣泛,例如各種大型公司的開(kāi)發(fā)部,研發(fā)部,科技部等等,其中BI工程師作為ETL工程師分支中的佼佼者。BI工程師包含了數(shù)據(jù)倉(cāng)庫(kù)工程師的工作,數(shù)據(jù)倉(cāng)庫(kù)工程師在建立數(shù)據(jù)倉(cāng)庫(kù)的工作時(shí)又得干ETL的工作;
換句話(huà)說(shuō):BI是整個(gè)商業(yè)智能的大概念,而商業(yè)智能的支撐正是數(shù)據(jù)倉(cāng)庫(kù),數(shù)據(jù)倉(cāng)庫(kù)的建立靠的是ETL。
ETL工程師就業(yè)去向:
1.數(shù)據(jù)庫(kù)工程師:作為任何軟件項(xiàng)目開(kāi)發(fā)不可或缺的人才,現(xiàn)實(shí)生活中我們所有能看到的計(jì)算機(jī)界面,都需要后臺(tái)數(shù)據(jù)的處理存儲(chǔ),這就是數(shù)據(jù)庫(kù)工程師的工作,比如:銀行、網(wǎng)購(gòu)平臺(tái)、游戲、醫(yī)療、保險(xiǎn)、養(yǎng)老、酒店、學(xué)校、政府等等的機(jī)構(gòu),他們的后臺(tái)數(shù)據(jù)需要有存儲(chǔ)的數(shù)據(jù)庫(kù),這些就用到了數(shù)據(jù)庫(kù)工程師。
數(shù)據(jù)庫(kù)工程師的工作是新時(shí)代的鐵飯碗,為什么這么說(shuō)?只要銀行還想有人去存貸款,網(wǎng)購(gòu)平臺(tái)還想繼續(xù)網(wǎng)絡(luò)交易,醫(yī)療機(jī)構(gòu)還需要刷卡,保險(xiǎn)行業(yè)還需要記錄客戶(hù)信息,養(yǎng)老保險(xiǎn)還需要繳納記錄,集聚點(diǎn)還需要客人提供自己的身份信息,學(xué)校還需要學(xué)生的信息存檔,政府機(jī)構(gòu)還需要各種文件的保密等等,都需要有數(shù)據(jù)庫(kù)工程師,給他們處理后臺(tái)的信息更新加載和存儲(chǔ)及保密等一系列處理。
2.銀行:銀行的職位每年都會(huì)是一些名牌大學(xué)的熱點(diǎn),曾有多少名牌大學(xué)的學(xué)生為了區(qū)區(qū)一個(gè)銀行柜臺(tái)的職位各種競(jìng)爭(zhēng),最后卻不得進(jìn)入,BI工程師是銀行必爭(zhēng)的人才。
3.咨詢(xún)顧問(wèn):一些開(kāi)發(fā)經(jīng)驗(yàn)比較豐富的ETL工程師,不再?gòu)氖麻_(kāi)發(fā)工作,對(duì)公司的產(chǎn)品比較了解,作為公司對(duì)外的窗口般存在,一般三年左右的開(kāi)發(fā)經(jīng)驗(yàn)可以作為公司的中級(jí)咨詢(xún)顧問(wèn),五年左右的可以做到高級(jí)咨詢(xún)顧問(wèn)。
4.項(xiàng)目管理:每個(gè)公司開(kāi)發(fā)部的基層領(lǐng)導(dǎo),ETL工程師晉升項(xiàng)目管理一般用時(shí)三到四年,項(xiàng)目管理對(duì)于技術(shù)的要求不高,僅僅需要對(duì)項(xiàng)目的整體流程有較為清晰的認(rèn)識(shí),能夠協(xié)調(diào)乙方公司與甲方公司的關(guān)系,并處理好項(xiàng)目組的日常工作及生活;至于部門(mén)主管,部門(mén)經(jīng)理甚至更高的管理層,都是從基層一步步走上去的。
5.資深專(zhuān)家:一般從事ETL開(kāi)發(fā)10年左右可以晉升專(zhuān)家級(jí)別,專(zhuān)家擁有資深的項(xiàng)目經(jīng)驗(yàn),脫離實(shí)際的開(kāi)發(fā),更多的是對(duì)公司各項(xiàng)目組的疑難雜癥給予指導(dǎo)及解決方案。
6.機(jī)構(gòu)講師:擁有ETL工程師兩到三年的開(kāi)發(fā)經(jīng)驗(yàn),可以進(jìn)培訓(xùn)機(jī)構(gòu)從助教做起,或者一些大學(xué)的講師,或者企業(yè)的培訓(xùn)講師,五年以上的開(kāi)發(fā)經(jīng)驗(yàn)為中高級(jí)講師,供不應(yīng)求。
月薪過(guò)萬(wàn)的BI工程師每天都在干什么呢?
在一線(xiàn)大城市,很多BI工程師的月薪都在萬(wàn)元以上,就是很普通的剛?cè)腴T(mén)的那些小菜鳥(niǎo)們工資都在7000左右。你想不想知道,這些高工資的IT業(yè)精英們,每天都在忙些什么呢?
其實(shí),BI工程師只是對(duì)于商業(yè)智能的一個(gè)統(tǒng)稱(chēng),它包含好很多方面,大體有以下四類(lèi):
1)ETL數(shù)據(jù)整合 2)數(shù)據(jù)存儲(chǔ)管理 3)數(shù)據(jù)挖掘設(shè)計(jì) 4)多維分析展現(xiàn)
單就ETL數(shù)據(jù)整合就分為:Oracle OWB;Oracle ODI;IBM Datastage;Informatica
知識(shí)點(diǎn)很多,在今后的工作中大家需要不斷地學(xué)習(xí),在項(xiàng)目中不斷進(jìn)步,現(xiàn)在大家還沒(méi)有入門(mén),舉個(gè)簡(jiǎn)單的例子讓大家先了解一下日后的工作:
其實(shí),簡(jiǎn)單的來(lái)說(shuō),那些商業(yè)中的數(shù)據(jù),就好比我們收蘋(píng)果。
數(shù)據(jù)整合,就是摘蘋(píng)果,我們把果樹(shù)上的蘋(píng)果全部采摘下來(lái)。
數(shù)據(jù)存儲(chǔ)管理,就是我們要把這些蘋(píng)果放到倉(cāng)庫(kù)里。
數(shù)據(jù)挖掘設(shè)計(jì),就像我們把蘋(píng)果進(jìn)行歸類(lèi),好的大的歸在一起,不好看的小的歸在一起。
最后的多維分析展現(xiàn),就像我們把這些蘋(píng)果整理好了,賣(mài)給不同的人群,高需求的人群吃什么樣的蘋(píng)果,普通百姓吃什么樣的蘋(píng)果一樣。當(dāng)然,他們的工作要比收蘋(píng)果復(fù)雜的多,他們面對(duì)的都是那些看不見(jiàn)的數(shù)據(jù),用代碼給他們進(jìn)行歸類(lèi)。
其實(shí),BI工程師是一個(gè)入門(mén)相對(duì)高的行業(yè),計(jì)算機(jī)相關(guān)行業(yè)的大學(xué)本科畢業(yè)生,也都需要經(jīng)過(guò)20天左右的基礎(chǔ)培訓(xùn),才能夠入門(mén),如果是非計(jì)算機(jī)相關(guān)行業(yè)的大學(xué)生,需要經(jīng)過(guò)30天左右的基礎(chǔ)培訓(xùn)才可以入門(mén),但是,這個(gè)行業(yè)的商業(yè)需求是很大的,而且是未來(lái)的發(fā)展方向。重點(diǎn)是在于你自己夠不夠努力,認(rèn)真學(xué)習(xí)技術(shù)和相關(guān)行業(yè)的知識(shí),這才是最重要的,也是那些真正月薪數(shù)萬(wàn)的原因所在。