Tìm hiểu Hadoop, MapReduce, và các bài toán ứng dụng

Mục lục Phần I. Giới thiệu chung . 5 1.1. Hadoop l{ gì? . 5 1.2. MapReduce l{ gì? 5 Phần II. Cài đặt Hadoop . 7 1. Cài đặt máy ảo Ubuntu 10.10 (32 bit) trên VMware . 7 1. Cài đặt Vmware tools cho Ubuntu . 7 2. Cài openSSH cho ubuntu 7 3. Cài java: 7 4. Thêm user hadoop vào nhóm hadoop . 8 5. Cấu hình ssh . 9 6. Vô hiệu hóa IPv6 11 7. Download và cài đặt hadoop . 12 a. Download Hadoop 0.20.2 và lưu vào thư mục /usr/local/ 12 b. Cấu hình . 12 c. Định dạng các tên node . 13 d. Chạy hadoop trên cụm một node 13 8. Chạy một ví dụ MapReduce . 14 9. Cài đặt và sử dụng Hadoop trên Eclipse 17 Phần III. Thành phần của Hadoop 20 1. Một số thuật ngữ. 20 2. C|c trình nền của Hadoop 21 2.1. NameNode . 21 2.2. DataNode . 21 2.3. Secondary NameNode 22 2.4. JobTracker . 22 2.5. TaskTracker 23 Phần IV. Lập trình MapReduce cơ bản . 25 1. Tổng quan một chương trình MapReduce 25 2. Các loại dữ liệu mà Hadoop hỗ trợ 26 2.1. Mapper . 27 2.2. Reducer . 28 2.3. Partitioner – chuyển hướng đầu ra từ Mapper 29 Phần V. Sơ lược về các thuật toán tin sinh . 30 5.1. Thuật toán Blast 30 5.2. Thuật toán Landau-Vishkin 31 5.2.1. Một số khái niệm 31 5.2.2. Khớp xâu xấp xỉ (Approximate String Matching) . 32 5.2.3. Giải pháp quy hoạch động 32 Phần VI. Sơ lược về BlastReduce 34 6.1. Tóm tắt: . 34 6.2. Read Mapping . 34 6.3. Thuật toán BlastReduce 35 6.3.1. MerReduce: tính các Mer giống nhau 36 6.3.2. SeedReduce: kết hợp các Mer nhất quán 37 6.3.3. ExtendReduce: mở rộng các hạt giống . 37 Lời nói đầu Kính ch{o c|c thầy cô! Sau một thời gian thực tập tốt nghiệp, sau đ}y l{ bản b|o c|o những gì em đ~ l{m được trong thời gian qua. Nội dung chính trong thời gian thực tập vừa qua l{ Sử dụng Hadoop v{ framework MapReduce để giải quyết b{i to|n tinh sinh học BLAST. Theo cảm nghĩ của em thì Hadoop l{ một ứng dụng mới v{ cũng không dễ để nắm bắt, v{ việc l{m sao để thuật to|n BLAST có thể xử lý song song trên Hadoop cũng kh| khó. Nhưng với sự giúp đỡ của thầy hướng dẫn Từ Minh Phương, v{ c|c anh chị trong công ti VCCorp thì em cũng phần n{o nắm bắt được vẫn đề. Tuy bản b|o c|o còn sơ s{i, nhưng l{ tiền đề cho những phần kế tiếp. Em sẽ cố gắng ho{n thiện hơn, v{ ho{n chỉnh đề t{i v{o b{i cuối kho|. Một lần nữa em xin c|m ơn c|c thầy cô đ~ định hướng v{ hướng dẫn trong suốt thời gian học tập v{ trong thời gian thực tập vừa qua.

38 trang | Chia sẻ: banmai | Lượt xem: 6326 | Lượt tải: 1Free

Bạn đang xem trước 20 trang tài liệu Tìm hiểu Hadoop, MapReduce, và các bài toán ứng dụng, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên

Nội dung chính trong thời gian thực tập vừa qua l{ Sử dụng Hadoop v{ framework MapReduce để giải quyết b{i to|n tinh sinh học BLAST. Theo cảm nghĩ của em thì Hadoop l{ một ứng dụng mới v{ cũng không dễ để nắm bắt, v{ việc l{m sao để thuật to|n BLAST có thể xử lý song song trên Hadoop cũng kh| khó. Nhưng với sự giúp đỡ của thầy hướng dẫn Từ Minh Phương, v{ c|c anh chị trong công ti VCCorp thì em cũng phần n{o nắm bắt được vẫn đề. Tuy bản b|o c|o còn sơ s{i, nhưng l{ tiền đề cho những phần kế tiếp. Em sẽ cố gắng ho{n thiện hơn, v{ ho{n chỉnh đề t{i v{o b{i cuối kho|. Một lần nữa em xin c|m ơn c|c thầy cô đ~ định hướng v{ hướng dẫn trong suốt thời gian học tập v{ trong thời gian thực tập vừa qua. Vũ Minh Ngọc 5 Phần I. Giới thiệu chung 1.1. Hadoop là gì? Mục đích : Mong muo n cu a ca c doanh nghie p la tận dụng lươ ng dư lie u khổng lồ để đưa ra quyết định kinh doanh, Hadoop giu p ca c công ty xử ly kho i lươ ng cơ terabyte v{ thậm chí l{ petabytes dữ liệu phức tạp tương đối hiệu quả với chi phí thấp hơn. C|c doanh nghiệp đang nỗ lực tìm kiếm tho ng tin quy gia từ khối lượng lớn dữ liệu phi cấu trúc được tạo ra bởi c|c web log, công cụ clickstream, c|c sản phẩm truyền thông x~ hội. Ch nh ye u to đo dẫn la m ta ng sự quan ta m đe n co ng nghệ m~ nguồn mở Hadoop. Hadoop, một dự |n phần mềm quản lý dữ liệu Apache với nh}n trong khung phần mềm MapReduce của Google, được thiết kế để hỗ trợ c|c ứng dụng sử dụng đươ c số lượng lớn dữ liệu cấu trúc v{ phi cấu trúc. Không giống như c|c hệ quản tri cơ sở dữ liệu truyền thống, Hadoop được thiết kế để l{m việc với nhiều loại dữ liệu v{ dữ liệu nguồn. Công nghệ HDFS của Hadoop cho phép khối lượng lơ n công việc được chia th{nh c|c khối dữ liệu nhỏ hơn được nh}n rộng v{ ph}n phối trên c|c phần cứng của một cluster đe xử lý nhanh hơn. Công nghệ n{y đ~ được sử dụng rộng r~i bởi một số trang web lớn nhất thế giới, chẳng hạn như Facebook, eBay, Amazon, Baidu, v{ Yahoo. C|c nh{ quan s|t nhấn mạnh rằng Yahoo l{ một trong những nh{ đóng góp lớn nhất đối với Hadoop. 1.2. MapReduce là gì? MapReduce l{ một “mô hình lập trình” (programming model), lần đầu b|o c|o trong b{i b|o của Jefferey Dean v{ Sanjay Ghemawat ở hội nghị OSDI 2004. MapReduce chỉ l{ một ý tưởng, một abstraction. Để hiện thực nó thì cần một implementation cụ thể. Google có một implementation của MapReduce bằng C++. Apache có Hadoop, một implementation m~ nguồn mở kh|c trên Java thì phải (ít nhất người dùng dùng Hadoop qua một Java interface). Khối dữ liệu lớn được tổ chức như một tập hợp gồm rất nhiều cặp (key, value) Để xử lý khối dữ liệu n{y, lập trình viên viết hai h{m map v{ reduce. H{m map có input l{ một cặp (k1, v1) v{ output l{ một danh s|ch c|c cặp (k2, v2). Chú ý rằng c|c input v{ output keys v{ values có thể thuộc về c|c kiểu dữ liệu kh|c nhau, tùy hỉ. Như vập h{m map có thể được viết một c|ch hình thức như sau: map(k1,v1) -> list(k2,v2) MR sẽ |p dụng h{m map (m{ người dùng MR viết) v{o từng cặp (key, value) trong khối dữ liệu v{o, chạy rất nhiều phiên bản của map song song với nhau trên c|c m|y tính của cluster. Sau giai đoạn n{y thì chúng ta có một tập hợp rất nhiều cặp (key, value) thuộc kiểu (k2, v2) gọi l{ c|c cặp (key, value) trung gian. MR cũng sẽ nhóm c|c cặp n{y theo từng key, như vậy c|c cặp (key, value) trung gian có cùng k2 sẽ nằm cùng một nhóm trung gian. Vũ Minh Ngọc 6 Giai đoạn hai MR sẽ |p dụng h{m reduce (m{ người dùng MR viết) v{o từng nhóm trung gian. Một c|ch hình thức, h{m n{y có thể mô tả như sau: reduce(k2, list (v2)) -> list(v3) Trong đó k2 l{ key chung của nhóm trung gian, list(v2) l{ tập c|c values trong nhóm, v{ list(v3) l{ một danh s|ch c|c gi| trị trả về của reduce thuộc kiểu dữ liệu v3. Do reduce được |p dụng v{o nhiều nhóm trung gian độc lập nhau, chúng lại một lần nữa có thể được chạy song song với nhau. Ví dụ cơ bản nhất của MR l{ b{i đếm từ (Tiếng Anh). Rõ r{ng đ}y l{ một b{i to|n cơ bản v{ quan trọng m{ một search engine phải l{m. Nếu chỉ có v{i chục files thì dễ rồi, nhưng nhớ rằng ta có nhiều triệu hay thậm chí nhiều tỉ files ph}n bố trong một cluster nhiều nghìn m|y tính. Ta lập trình MR bằng c|ch viết 2 h{m cơ bản với pseudo-code như sau: void map(String name, String document): // name: document name // document: document contents for each word w in document: EmitIntermediate(w, "1"); void reduce(String word, Iterator partialCounts): // word: a word // partialCounts: a list of aggregated partial counts int result = 0; for each pc in partialCounts: result += ParseInt(pc); Emit(AsString(result)); Chỉ với hai primitives n{y, lập trình viên có rất nhiều flexibility để ph}n tích v{ xử lý c|c khối dữ liệu khổng lồ. MR đ~ được dùng để l{m rất nhiều việc kh|c nhau, ví dụ như distributed grep, distributed sort, web link-graph reversal, term-vector per host, web access log stats, inverted index construction, document clustering, machine learning, statistical machine translation, large-scale graph computation … Vũ Minh Ngọc 7 Phần II. Cài đặt Hadoop 1. Cài đặt máy ảo Ubuntu 10.10 (32 bit) trên VMware - Sử dụng VMware® Workstation 7.0.0 build-203739 (32-bit) - Hệ điều h{nh Ubuntu Desktop Edittion 10.10 (32-bit) - Tạo user mặc định l{ hadoop 1. Cài đặt Vmware tools cho Ubuntu a. Kích hoạt t{i khoản root - bạn điền pass cho t{i khoản hadoop - điền tiếp 2 lần pass mới cho t{i khoản root b. C{i đặt tools cho Ubuntu - Đăng nhập lại bằng t{i khoản root - Chọn c{i Vmware tools như hình sau - V{o m|y ảo Ubuntu, giải nén file VMwareTools-8.1.3-203739.tar.gz v{ chạy file vmware-install.pl - Bấm enter để chọn c|c tùy chọn mặc định đặt trong dấu móc vuông 2. Cài openSSH cho ubuntu 3. Cài java: Hadoop yêu cầu java 1.5.x. Tuy nhiên, bản 1.6.x được khuyến khích khi sử dụng cho Hadoop, dưới đ}y mô tả c|ch thức c{i java : a. Thêm Canonical Đối t|c Repository v{o kho apt của bạn b. Cập nhật danh s|ch nguồn c. C{i đặt sun-java6-jdk d. Kiểm tra $sudo passwd root $ sudo apt-get install openssh-server openssh-client $ sudo add-apt-repository "deb lucid partner" $ sudo apt-get update $ sudo apt-get install sun-java6-jdk Vũ Minh Ngọc 8 4. Thêm user hadoop vào nhóm hadoop user@ubuntu:~# java -version java version "1.6.0_20" Java(TM) SE Runtime Environment (build 1.6.0_20-b02) Java HotSpot(TM) Client VM (build 16.3-b01, mixed mode, sharing) Vũ Minh Ngọc 9 5. Cấu hình ssh Hadoop yêu cầu truy cập SSH để quản lý c|c node của nó, ví dụ như điều kiển một m|y tính từ xa cộng với m|y cục bộ của bạn nếu như bạn muốn Hadoop l{m việc trên đó. Trong thiết lập đơn node cho haddop , chúng ta cấu hình ssh truy cập tới localhost cho user hadoop m{ chúng ta tạo ra ở phần trước. a. Đăng nhập từ t{i khoản hadoop b. Sử dụng dòng lệnh // Không nhập gì trong 3 lần hỏi, chỉ ấn xuống dòng Enter Vũ Minh Ngọc 10 c. Bạn phải cho phép SSH truy cập tới m|y cục bộ của bạn với khóa mới: d. Kiểm tra c|c c{i đặt SSH bằng c|ch kết nối với m|y tính cục bộ của bạn với user hadoop. Bước n{y cũng cần thiết để lưu trữ dấu v}n tay của m|y bạn trong file know_host. Nếu bạn có bất cứ cấu hình đặc biệt cho SSH giống như một cổng SSH không chuẩn, bạn có thể định nghĩa lại trong $HOME/.ssh/config hadoop@hadoop:~$ ssh-keygen -t rsa Generating public/private rsa key pair. Enter file in which to save the key (/home/hadoop/.ssh/id_rsa): Created directory '/home/hadoop/.ssh'. Enter passphrase (empty for no passphrase): Enter same passphrase again: Your identification has been saved in /home/hadoop/.ssh/id_rsa. Your public key has been saved in /home/hadoop/.ssh/id_rsa.pub. The key fingerprint is: 19:f5:c2:b2:19:25:83:25:8f:ec:45:f7:4a:c3:59:25 hadoop@hadoop The key's randomart image is: +--[ RSA 2048]----+ | .o= + E.. | | ..= O = . | | o * B o | | . . O + | | . S . | | | | | | | | | +-----------------+ hadoop@hadoop:~$ cd ~/.ssh hadoop@hadoop:~/.ssh$ cat id_rsa.pub >> authorized_keys Vũ Minh Ngọc 11 6. Vô hiệu hóa IPv6 Một vấn đề với IPv6 trên Ubuntu l{ việc sử dụng 0.0.0.0 cho c|c tùy chọn cấu hình Hadoop cho c|c mạng có liên quan đến nhau sẽ cho kết quả Hadoop liên kết đến c|c địa chỉ IPv6 của my Ubuntu box. a. Để vô hiệu hóa IPv6 trong Ubuntu 10.10, mở /etc/sysctl.conf trong editor bạn thêm dòng sau v{o cuối file: b. Khởi động lại m|y để thay đổi có hiệu quả. c. Để kiểm tra lại bạn có thể sử dụng dòng lệnh sau Kết quả trả về l{ 0 tức l{ IPv6 vẫn còn được kích hoạt, bằng 1 l{ đ~ được vô hiệu hóa. hadoop@hadoop:~/.ssh$ ssh localhost The authenticity of host 'localhost (::1)' can't be established. RSA key fingerprint is 0a:3d:86:06:28:82:7f:3a:35:0b:83:d5:35:ee:b8:b1. Are you sure you want to continue connecting (yes/no)? yes Warning: Permanently added 'localhost' (RSA) to the list of known hosts. Linux hadoop 2.6.35-22-generic #33-Ubuntu SMP Sun Sep 19 20:34:50 UTC 2010 i686 GNU/Linux Ubuntu 10.10 Welcome to Ubuntu! * Documentation: https://help.ubuntu.com/ The programs included with the Ubuntu system are free software; the exact distribution terms for each program are described in the individual files in /usr/share/doc/*/copyright. Ubuntu comes with ABSOLUTELY NO WARRANTY, to the extent permitted by applicable law. #disable ipv6 net.ipv6.conf.all.disable_ipv6 = 1 net.ipv6.conf.default.disable_ipv6 = 1 net.ipv6.conf.lo.disable_ipv6 = 1 $ cd / $ cat /proc/sys/net/ipv6/conf/all/disable_ipv6 Vũ Minh Ngọc 12 7. Download và cài đặt hadoop a. Download Hadoop 0.20.2 và lưu vào thư mục /usr/local/ b. Cấu hình i. hadoop-env.sh C{i đặt JAVA_HOME. Thay đổi # The java implementation to use. Required. # export JAVA_HOME=/usr/lib/j2sdk1.5-sun Th{nh : # The java implementation to use. Required. export JAVA_HOME=/usr/lib/jvm/java-6-sun ii. conf/core-site.xml hadoop.tmp.dir /your/path/to/hadoop/tmp/dir/hadoop-${user.name} A base for other temporary directories. fs.default.name hdfs://localhost:54310 The name of the default file system. A URI whose scheme and authority determine the FileSystem implementation. The uri's scheme determines the config property (fs.SCHEME.impl) naming the FileSystem implementation class. The uri's authority is used to determine the host, port, etc. for a filesystem. iii. conf/mapred-site.xml mapred.job.tracker localhost:54311 The host and port that the MapReduce job tracker runs at. If "local", then jobs are run in-process as a single map and reduce task. $ cd /usr/local $ sudo tar xzf hadoop-0.20.2.tar.gz $ sudo mv hadoop-0.20.2 hadoop $ sudo chown -R hadoop:hadoop hadoop Vũ Minh Ngọc 13 iv. conf/hdfs-site.xml dfs.replication 1 Default block replication. The actual number of replications can be specified when the file is created. The default is used if replication is not specified in create time. c. Định dạng các tên node Đầu tiên để khởi động Hadoop vừa của bạn l{ định dạng lại hệ thống tệp tin Hadoop m{ được thực hiện trên đầu của hệ thống tệp tin của bạn. Bạn cần phải l{m việc n{y trong lần đầu chạy. Bạn chạy lệnh sau: Kết quả: d. Chạy hadoop trên cụm một node Sử dụng c}u lệnh : $ /bin/start-all.sh Kết quả như sau: hadoop@ubuntu:~$ /hadoop/bin/hadoop namenode -format Vũ Minh Ngọc 14 Một tool kh| thuật tiện để kiểm tra xem c|c tiến trình Hadoop đang chạy l{ jps: Bạn cũng có thể kiểm tra với netstart nếu Hadoop đang nghe trên c|c cổng đ~ được cấu hình: e. Dừng hadoop trên cụm một node Sử dụng lệnh : /bin/stop-all.sh 8. Chạy một ví dụ MapReduce Chúng ta chạy ví dụ WordCount có sẵn trong phần ví dụ của Hadoop. Nó xẽ đếm c|c từ trong file v{ số lần xuất hiện. file đầu v{o v{ đầu ra đề l{ dạng text, mỗi dòng trong file đầu ra chứa từ v{ số lần xuất hiện, ph}n c|ch với nhau bởi dấu TAB. a. Download dữ liệu đầu v{o Download 3 cuốn s|ch từ Project Gutenberg: The Outline of Science, Vol. 1 (of 4) by J. Arthur Thomson The Notebooks of Leonardo Da Vinci Ulysses by James Joyce Chọn file trong Plain Text UTF-8, sau đó copy v{o thư mục tmp của Hadoop: /tmp/gutenberg , kiểm tra lại như sau: Vũ Minh Ngọc 15 Restart lại hadoop cluster: hadoop@ubuntu:~$ /bin/start-all.sh b. Copy dữ liệu v{o HDFS c. Chạy MapReduce job Sử dụng c}u lệnh sau: Trong c}u lệnh n{y bạn sửa th{nh phiên bản m{ bạn đang sử dụng. Bạn có thể kiểm tra trong thư mục c{i Hadoop có chứa file *.jar n{y. C}u lệnh n{y sẽ đọc tất cả c|c file trong thư mục butenberg từ HDFS, xử lý v{ lưu kết quả v{o gutenberg-output. Kết quả đầu ra như sau: 01 hadoop@ubuntu:/usr/local/hadoop$ bin/hadoop dfs -copyFromLocal /tmp/gutenberg gutenberg 02 hadoop@ubuntu:/usr/local/hadoop$ bin/hadoop dfs -ls 03 Found 1 items 04 drwxr-xr-x - hadoop supergroup 0 2010-05-08 17:40 /user/hadoop/gutenberg 05 hadoop@ubuntu:/usr/local/hadoop$ bin/hadoop dfs -ls gutenberg 06 Found 3 items 07 -rw-r--r-- 3 hadoop supergroup 674566 2011-03-10 11:38 /user/hadoop/gutenberg/pg20417.txt 08 -rw-r--r-- 3 hadoop supergroup 1573112 2011-03-10 11:38 /user/hadoop/gutenberg/pg4300.txt 09 -rw-r--r-- 3 hadoop supergroup 1423801 2011-03-10 11:38 /user/hadoop/gutenberg/pg5000.txt 10 hadoop@ubuntu:/usr/local/hadoop$ hadoop@ubuntu:/usr/local/hadoop$ bin/hadoop jar hadoop-- examples.jar wordcount gutenberg gutenberg-output Vũ Minh Ngọc 16 Kiểm tra kết quả nếu lưu th{nh công: Vũ Minh Ngọc 17 Nếu bạn muốn sửa đổi c|c thiết lập của Hadoop giống như tăng số task Reduce lên, bạn có thể sử dụng tùy chọn “-D” như sau: d. Lấy kết quả từ HDFS Để kiểm tra c|c file, bạn có thể copy nó từ HDFS đến hệ thống file địa phương. Ngo{i ra, bạn có thể sử dụng lệnh sau: Trong ví dụ n{y, chúng ta có thể copy như sau: 9. Cài đặt và sử dụng Hadoop trên Eclipse a. Download v{ c{i đặt plug-in C|c bạn download:  Eclipse SDK Version: 3.5.2  Hadoop plug-in cho Eclipse: hadoop-0.20.1-eclipse- plugin.jar  Copy hadoop-0.20.1-eclipse-plugin.jar v{o trong thư mục plug-ins của Eclipse b. C{i đặt MapReduce location Khởi động Eclipse, bạn bấm v{o nút trong vòng đỏ: hadoop@ubuntu:/usr/local/hadoop$ bin/hadoop jar hadoop-0.20.2- examples.jar wordcount -D mapred.reduce.tasks=16 gutenberg gutenberg-output hadoop@ubuntu:/usr/local/hadoop$ bin/hadoop dfs -cat gutenberg- output/part-r-00000gutenberg-output Vũ Minh Ngọc 18 Sau đó chọn Other… => MapRecude => OK Kích chuột phải v{o phần trống của Location trong TAB Map/Recude Locations, chọn New Hadoop location… V{ điền c|c tham số như hình dưới: Vũ Minh Ngọc 19 Khởi động Hadoop cluster như trên, v{ kiểm tra DFS như hình dưới đ}y Vũ Minh Ngọc 20 Phần III. Thành phần của Hadoop 1. Một số thuật ngữ. - MapReduce job l{ một đơn vị của công việc m{ kh|ch h{ng (client) muốn được thực hiện: nó bao gồm dữ liệu đầu v{o, chương trình MapReduce, v{ thông tin cấu hình. Hadoop chạy c|c công việc (job) n{y bằng c|ch chia nó th{nh c|c nhiệm vụ (task), trong đó có hai kiểu chính l{ : c|c nhiệm vụ map (map task) v{ c|c nhiệm vụ reduce (reduce task) - Có hai loại node điều kiển qu| trình thực hiện công việc (job): một jobtracker v{ một số tasktracker. Jobtracker kết hợp tất cả c|c công việc trên hệ thống bằng c|ch lập lịch công việc chạy trên c|c tasktracker. Tasktracker chạy c|c nhiệm vụ (task) v{ gửi b|o c|o thực hiện cho jobtracker, c|i lưu giữ c|c bản nghi về qu| trình xử lý tổng thể cho mỗi công việc (job) - Hadoop chia đầu v{o cho mỗi công việc MapReduce v{o c|c mảnh (piece) có kích thước cố định gọi l{ c|c input split hoặc l{ c|c split. Hadoop tạo ra một task map cho mỗi split, c|i chạy mỗi nhiệm vụ map do người sử dụng định nghĩa cho mỗi bản ghi (record) trong split. - Có rất nhiều c|c split , điều n{y có nghĩa l{ thời gian xử lý mỗi split nhỏ hơn so với thời gian xử lý to{n bộ đầu v{o. Vì vậy, nếu chúng ta xử lý c|c split một c|ch song song, thì qu| trình xử lý sẽ tốt hơn c}n bằng tải, nếu c|c split nhỏ, khi đó một chiếc m|y tính nhanh có thể xử lý tương đương nhiều split trong qu| trình thực hiện công việc hơn l{ một m|y tính chậm. Ngay cả khi c|c m|y tính giống hệt nhau, việc xử lý không th{nh công hay c|c công việc kh|c đang chạy đồng thời l{m cho cần bằng tải như mong muốn, v{ chất lượng của c}n bằng tải tăng như l{ chia c|c splits th{nh c|c hạt mịn hơn - Mặt kh|c, nếu chia t|ch qu| nhỏ, sau đó chi phí cho việc quản lý c|c split v{ của tạo ra c|c map task bắt đầu chiếm rất nhiều tổng thời gian của qu| trình xử lý công việc. Đối với hầu hết công việc, kích thước split tốt nhất thường l{ kích thước của một block của HDFS, mặc định l{ 64MB, mặc dù nó có thể thay đổi được cho mỗi cluster ( cho tất cả c|c file mới được tạo ra) hoặc định rõ khi mỗi file được tạo ra. - Hadoop l{m tốt nhất c|c công việc của nó chạy c|c map task trên một node khi m{ dữ liệu đầu v{o của nó cư trú ngay trong HDFS. Nó được gọi l{ tối ưu hóa dữ liệu địa phương. B}y giờ chúng ta sẽ l{m rõ tại sao kích thước split tối ưu lại bằng kích thước của block: nó l{ kích thước lớn nhất của một đầu v{o m{ có thể được đảm bảo để được lưu trên một node đơn. Nếu split được chia th{nh 2 block, nó sẽ không chắc l{ bất cứ node HDFS n{o lưu trữ cả hai block, vì vaayjmootj số split phải được chuyển trên mạng đến node chạy map tast, như vậy rõ r{ng l{ sẽ ít hiệu quả hơn việc chạy to{n bộ map task sử dụng dữ liệu cục bộ. - C|c map task ghi đầu ra của chúng trên đĩa cụ bộ, không phải l{ v{o HDFS. Tại sao lại như vậy? Đầu ra của map l{ đầu ra trung gian, nó được xử lý bởi reduce task để tạo ra Vũ Minh Ngọc 21 đầu ra cuối cùng , v{ một khi công việc được ho{n th{nh đầu ra của map có thể được bỏ đi. Vì vậy việc lưu trữ nó trong HDFS, với c|c nh}n bản, l{ không cần thiết. Nếu c|c node chạy maptask bị lỗi trước khi đầu ra map đ~ được sử dụng bởi một reduce task, khi đó Hadoop sẽ tự động chạy lại map task trên một node kh|c để tạo ra một đầu ra map. - Khi “chạy Hadoop” có nghĩa l{ chạy một tập c|c trình nền - daemon, hoặc c|c chương trình thường trú, trên c|c m|y chủ kh|c nhau trên mạng của bạn. Những trình nền có vai trò cụ thể, một số chỉ tồn tại trên một m|y chủ, một số có thể tồn tại trên nhiều m|y chủ. C|c daemon bao gồm: ● NameNode ● DataNode ● SecondaryNameNode ● JobTracker ● TaskTracker 2. Các trình nền của Hadoop 2.1. NameNode L{ một trình nền quan trọng nhất của Hadoop - c|c NameNode. Hadoop sử dụng một kiển trúc master/slave cho cả lưu trữ ph}n t|n v{ xử lý ph}n t|n. Hệ thống lưu trữ ph}n t|n được gọi l{ Hadoop File System hay HDFS. NameNode l{ master của HDFS để chỉ đạo c|c trình nền DataNode slave để thực hiện c|c nhiệm vụ I/O mức thấp. NadeNode l{ nh}n viên kế to|n của HDFS; nó theo dõi c|ch c|c tập tin của bạn được ph}n kia th{nh c|c block, những node n{o lưu c|c khối đó, v{ “kiểm tra sức khỏe” tổng thể của hệ thống tệp ph}n t|n. Chức năng của NameNode l{ nhớ (memory) v{ I/O chuyên s}u. Như vậy, m|y chủ lư trữ NameNode thường không lưu trữ bất cứ dữ liệu người dùng hoặc thực hiện bất cứ một tính to|n n{o cho một ứng dụng MapReduce để giảm khổi lượng công việc trên m|y. Điều n{y có nghĩa l{ m|y chủ NameNode không gấp đôi (double) như l{ DataNode hay một TaskTracker. Có điều đ|ng tiếc l{ có một khía cạnh tiêu cực đến tầm quan trọng của NameNode nó có một điểm của thất bại của một cụm Hadoop của bạn. Đối với bất cứ một trình nền kh|c, nếu c|c nút m|y của chúng bị hỏng vì lý do phần mềm hay phần cứng, c|c Hadoop cluster có thể tiếp tục hoạt động thông suốt hoặc bạn có thể khởi động nó một c|ch nhanh chóng. Nhưng không thể |p dụng cho c|c NameNode. 2.2. DataNode Mỗi m|y slave trong cluster của bạn sẽ lưu trữ (host) một trình nền DataNode để thực hiện c|c công việc n{o đó của hệ thống file ph}n t|n - đọc v{ ghi c|c khối HDFS Vũ Minh Ngọc 22 tới c|c file thực tế trên hệ thống file cục bộ (local filesytem). Khi bạn muốn đọc hay ghi một file HDFS, file đó được chia nhỏ th{nh c|c khối v{ NameNode sẽ nói cho c|c client của bạn nơi c|c mỗi khối trình nền DataNode sẽ nằm trong đó. Client của bạn liên lạc trực tiếp với c|c trình nền DataNode để xử lý c|c file cục bộ tương ứng với c|c block. Hơn nữa, một DataNode có thể giao tiếp với c|c DataNode kh|c để nh}n bản c|c khối dữ liệu của nó để dự phòng. Hình 2.1 minh họa vai trò của NameNode v{ DataNode. Trong c|c số liệu n{y chỉ ra 2 file dữ liệu, một c|i ở /user/chuck/data1 v{ một c|i kh|c ở /user/james/data2. File Data1 chiếm 3 khối, m{ được biểu diễn l{ 1 2 3. V{ file Data2 gồm c|c khối 4 v{ 5. Nội dung của c|c file được ph}n t|n trong c|c DataNode. Trong minh họa n{y, mỗi block có 3 nh}n bản. Cho ví dụ, lock 1 (sử dụng ở data1) l{ được nh}n bản hơn 3 lần trên hầu hết c|c DataNodes. Điều n{y đảm bảo rằng nếu có một DataNode gặp tai nạn hoặc không thể truy cập qua mạng được, bạn vẫn có thể đọc được c|c tệp tin. C|c DataNode thường xuyên b|o c|o với c|c NameNode. Sa khi khởi tạo, mỗi DataNode thông b|o với NameNode của c|c khối m{ nó hiện đang lưu trữ. Sau khi Mapping ho{n th{nh, c|c DataNode tiếp tục thăm dò ý kiến NameNode để cung cấp thông tin về thay đổi cục bộ cũng như nhận được hướng dẫn để tạo, di chuyển hoặc xóa c|c blocks từ đĩa địa phương (local). 2.3. Secondary NameNode C|c Secondary NameNode (SNN) l{ một trình nền hỗ trợ gi|m s|t trạng th|i của c|c cụm HDFS. Giống như NameNode, mỗi cụm có một SNN, v{ nó thường trú trên một m|y của mình. Không có c|c trình nền DataNode hay TaskTracker chạy trên cùng một server. SNN kh|c với NameNode trong qu| trình xử lý của nó không nhận hoặc ghi lại bất cứ thay đổi thời gian thực tới HDFS. Thay v{o đó, nó giao tiếp với c|c NameNode bằng c|ch chụp những bức ảnh của siêu dữ liệu HDFS (HDFS metadata) tại nhưng khoảng x|c định bởi cấu hình của c|c cluster. Như đ~ đề cập trước đó, NameNode l{ một điểm truy cập duy nhất của lỗi (failure) cho một cụm Hadoop, v{ c|c bức ảnh chụp SNN giúp giảm thiểu thời gian ngừng (downtime) v{ mất dữ liệu. Tuy nhiên, một NameNode không đòi hỏi sự can thiệp của con người để cấu hình lại c|c cluster sẻ dụng SSN như l{ NameNode chính. 2.4. JobTracker Trình nền JobTracker l{ một liên lạc giữa ứng dụng của bạn { Hadoop. Một khi bạn gửi m~ nguồn của bạn tới c|c cụm (cluster), JobTracker sẽ quyết định kế hoạch thực hiện bằng c|ch x|c định những tập tin n{o sẽ xử lý, c|c nút được giao c|c nhiệm vụ kh|c nhau, v{ theo dõi tất cả c|c nhiệm vụ khi dúng đang chạy. Nếu một nhiệm vụ (task) thất bại (fail), JobTracker sẽ tự động chạy lại nhiệm vụ đó, có thể trên một node kh|c, cho đến một giới hạn n{o đó được định sẵn của việc thử lại n{y. Vũ Minh Ngọc 23 Chỉ có một JobTracker trên một cụm Hadoop. Nó thường chạy trên một m|y chủ như l{ một nút master của cluster. 2.5. TaskTracker Như với c|c trình nền lưu trữ, c|c trình nền tính to|n cũng phải tu}n theo kiến trúc master/slave: JobTracker l{ gi|m s|t tổng việc thực hiện chung của một công việc MapRecude v{ c|c taskTracker quản lý việc thực hiện c|c nhiệm vụ riêng trên mỗi node slave. Hình 2.2 minh họa tương t|c n{y. Mỗi TaskTracker chịu tr|ch nhiệm thực hiện c|c task riêng m{ c|c JobTracker giao cho. Mặc dù có một TaskTracker duy nhất cho một node slave, mỗi TaskTracker có thể sinh ra nhiều JVM để xử lý c|c nhiệm vụ Map hoặc Reduce song song. Một trong những tr|ch nhiệm của c|c TaskTracker l{ liên tục liên lạc với JobTracker. NeeusJobTracker không nhận được nhịp đập từ mootjTaskTracker trong vòng một lượng thời gian đ~ quy định, nó sẽ cho rằng TaskTracker đ~ bị treo (cashed) v{ sẽ gửi lại nhiệm vụ tương ứng cho c|c nút kh|c trong cluster. Hình 2.2 Tương tác giữa JobTracker và TaskTracker. Sau khi client gọi JobTracker bắt đầu công việc xử lý dữ liệu, các phân vùng JobTracker làm việc và giao các nhiệm vụ Map và Recude khác nhau cho mỗi TaskTracker trong cluster. Vũ Minh Ngọc 24 Hình 2.3 Cấu trúc liên kết của một nhóm Hadoop điển hình. Đó là một kiến trúc master/slave trong đó NameNode và JobTracker là Master và DataNode & TaskTracker là slave. Cấu trúc liên kết n{y có một node Master l{ trình nền NameNode v{ JobTracker v{ một node đơn với SNN trong trường hợp node Master bị lỗi. Đối với c|c cụm nhở, thì SNN có thể thường chú trong một node slave. Mặt kh|c, đối với c|c cụm lớn, ph}n t|ch NameNode v{ JobTracker th{nh hai m|y riêng. C|c m|y slave, mỗi m|y chỉ lưu trữ một DataNode v{ Tasktracker, để chạy c|c nhiệm vụ trên cùng một node nơi lưu dữ liệu của chúng. Chúng tôi sẽ thiết lập một cluster Hadoop đầy đủ với mẫu như trên bằng c|ch đầu tiên thiết lập c|c nút Master v{ kiếm so|t kênh giữa c|c node. Nếu một cluster Hadoop của bạn đ~ có sẵn, bạn có thẻ nhay qua phần c{i đặt kênh Secure Shell (SSH) giữa c|c node. Bạn cũng có một v{i lựa chọn để chạy Hadoop l{ sử dụng trên Một m|y đơn, hoặc chế độ giả ph}n t|n. Chúng sẽ hữu dụng để ph|t triển. Cấu hình Haddop để chạy trong hai node hoặc c|c cluster chuẩn (chế độ ph}n t|n đầy đủ) được đề cập trong chương 2.3 Vũ Minh Ngọc 25 Phần IV. Lập trình MapReduce cơ bản 1. Tổng quan một chương trình MapReduce Như chúng ta đã biết, một chương trình MapReuduce xử lý dữ liệu bằng cách tao thác với các cặp (key/value) theo công thức chung: map: (K1,V1) ➞ list(K2,V2) reduce: (K2,list(V2)) ➞ list(K3,V3) Trong phần này chúng ta học chi tiết hơn về từng giai đoạn trong chương trình MapReduce điển hình. Hình 3.1 biểu diễn biểu đồ cao cấp của toàn bộ quá trình, và chúng tôi tiếp tục mỏ xẻ từng phần: Vũ Minh Ngọc 26 2. Các loại dữ liệu mà Hadoop hỗ trợ MapReduce framework có một các định nghĩa cặp khóa key/value tuần tự để có thể di chuyển chúng qua mạng, và chỉ các lớp hỗ trợ kiểu tuần tự có chúng năm giống như key và value trong framework. Cụ thể hơn, các lớp mà implement giao diện Writable có thể làm value, và các lớp mà implement giao diện WritableComparable có thể làm cả key và value. Lưu ý rằng giao diện WritableComparable là một sự kết hợp của Writeable và giao diện java.lang.Comparable. Chúng ta cần yêu cầu so sánh các khóa bởi vì chúng sẽ được sắp xếp ở giai đoạn reduce, trong khi giá trị thì đơn giản được cho qua. Hadoop đi kèm một số lớp được định nghĩa trước mà implement WritableComparable, bao gồm các lớp bọ cho tát cả các loại dữ liệu cơ bản như trong bảng 3.1 sau: Bạn cũng có thể tùy chỉnh một kiểu dữ liệu bằng cách implement Writable (hay WritableComparable). Như ví dụ 3.2 sau, lớp biểu diễn các cạnh trong mạng, như đường bay giữa hai thành phố: Vũ Minh Ngọc 27 import java.io.DataInput; import java.io.DataOutput; import java.io.IOException; import org.apache.hadoop.io.WritableComparable; public class Edge implements WritableComparable{ private String departureNode; //Node khoi hanh private String arrivalNode; //Node den public String getDepartureNode(){ return departureNode; } @Override public void readFields(DataInput in) throws IOException { // TODO Auto-generated method stub departureNode = in.readUTF(); arrivalNode = in.readUTF(); } @Override public void write(DataOutput out) throws IOException { // TODO Auto-generated method stub out.writeUTF(departureNode); out.writeUTF(arrivalNode); } @Override public int compareTo(Edge o) { // TODO Auto-generated method stub return (departureNode.compareTo(o.departureNode) != 0)? departureNode.compareTo(departureNode): arrivalNode.compareTo(o.arrivalNode); } } Lớp Edge thực hiện hai phương thức readFields() và write() của giao diện Writeable. Chúng làm việc với lớp Java DataInput và DataOutput để tuần tự nội dung của các lớp. Thự hiện phương pháp compareTo() cho interface Comparable. Nó trả lại giá trị -1, 0, +1. Với kiểu dữ liệu được định nghĩa tại giao diện, chúng ta có thể tiến hành giai đoạn đầu tiên của xử lý luồng dữ liệu như trong hình 3.1: mapper. 2.1. Mapper Để phục làm một Mapper, một lớp implements từ interface Mapper và kế thừa từ lớp MapReduceBase. Lớp MapReduceBase, đóng vai trò là lớp cơ sở cho cả mapper và reducer. Nó Vũ Minh Ngọc 28 bao gồm hai phương thức hoạt động hiệu quả như là hàm khởi tạo và hàm hủy của lớp: - void configure(JobConf job) – trong hàm nay, bạn có thể trích xuất các thông số cài đặt hoặc bằng các file XML cấu hình hoặc trong các lớp chính của ứng dụng của bạn. Gọi cái hàm này trước khi xử lý dữ liệu. - void close() – Như hành động cuối trước khi chấm dứt nhiệm vụ map, hàm này nên được gọi bất cứ khi nào kết thúc – kết nối cơ sở dữ liệu, các file đang mở. Giao diện Mapper chịu trách nhiệm cho bước xử lý dữ liệu. Nó sử dụng Java Generics của mẫu Mapper chỗ mà các lớp key và các lớp value mà implements từ interface WriteableComparable và Writable. Phương pháp duy nhất của nó để xử lý các cặp (key/value) như sau: void map(K1 key, V1 value, OutputCollector output, Reporter reporter ) throws IOException Phương thức này tạo ra một danh sách (có thể rỗng) các cặp (K2, V2) từ một cặp đầu vào (K1, V1). OuputCollector nhận kết quả từ đầu ra của quá trình mapping, và Reporter cung cấp các tùy chọn để ghi lại thông tin thêm về mapper như tiến triển công việc. Hadoop cung cấu một vài cài đặt Mapper hữu dụng. Bạn có thể thấy một vài cái như trong bản 3.2 sau: Bảng 3.2. Một vài lớp thực hiện Mapper được định nghĩa trước bởi Hadoop - IdentityMapper : với cài đặt Mapper và ánh xạ đầu vào trực tiếp vào đầu ra - InverseMapper : với cài đặt Mapper và đảo ngược cặp (K/V) - RegexMapper : với cài đặ Mapper và sinh ra cặp (match, 1) cho mỗi ánh xạ (match) biểu thức thường xuyên. - TokenCountMapper : với cài đặt Mapper sinh ra một cặp (token, 1) khi một giá trị đầu vào là tokenized. 2.2. Reducer Với bất cứ cài đặt Mapper, một reducer đầu tiên phải mở rộng từ lớp MapReduce base để cho phép cấu hình và dọn dẹp. Ngoài ra, nó cũng phải implement giao diện Reducer chỉ có một phương thức duy nhất sau: void reduce(K2 key, Iterator values, OutputCollector output, Reporter reporter ) throws IOException Khi nhận được các task từ đầu ra của các Mapper khác nhau, nó sắp xếp các dữ liệu đến theo các khóa của các cặp (key/value) và nhóm lại các giá trị cùng khóa. Hàm reduce() được gọi sau đó, nó sinh ra một danh sách (có thể rỗng) các cặp (K3, V3) bằng cách lặp lại trên các giá trị Vũ Minh Ngọc 29 được liên kết với khóa đã cho. OutputCollector nhận từ đầu ra của quá trình reduce và ghi nó ra đầu ra file. Reporter cung cấp tùy chọn ghi lại thông tin thêm về reducer như là một tiến triển công việc. Bảng 3.3 liệt kê một vài reducer cơ bản được triển khai cung cấp bởi Hadoop - IdentityReducer : với cài đặt Reducer và ánh xạ đầu vào trực tiếp vào đầu ra - LongSumReducer : với cài đạt Reducer và quyết định thổng hợp tất cả các giá trị tương tứng với các key đã cho Có một bước quan trọng giữa 2 bước map và reduce: chỉ đạo kết quả của các Mapper tới các Reducer. Đây là trách nhiệm của partitioner (phân vùng). 2.3. Partitioner – chuyển hướng đầu ra từ Mapper Với nhiều reducer, chúng ta cần một vài cách để xác định một trong những cặp (key/value) là đầu ra của một mapper được gửi đi. Hành vi mặc định là băm key để xác định reducer. Hadoop thực thi kiến lược này bằng cách sử dụng lớp HashPartitioner. Thỉnh thoáng lớp này sẽ làm việc hiệu quả. Trở lại ví dụ Edge như trong phần 3.2.1. Giả sử bạn sử dụng lớp Edge để phân tích dữ liệu thông tin chuyến bay để xác định số lượng hành khác khởi hành từ mỗi sân bay. Ví dụ như dữ liệu sau: (San Francisco, Los Angeles) Chuck Lam (San Francisco, Dallas) James Warren ... Nếu bạn sử dụng HashPartitioner, hai dòng sẽ được gửi tới 2 reducer khác nhau. Số các điểm khới hành sẽ được xử lý 2 lần và cả hai lần đều sai. Làm thế nào chúng ta có thể tùy chỉnh Partitioner cho ứng dụng của bạn? Trong tinh hình này, chúng ta muốn tất cả các đường bay với một điểm khởi hành sẽ được gửi tới cùng một reducer. Điều này được dễ làm bằng cách băm departureNode của Edge: public class EdgePartitioner implements Partitioner{ @Override public int getPartition(Edge key, Writable value, int numPartitions){ return key.getDepartureNode().hashCode() % numPartitions; } @Override public void configure(JobConf conf) { } } Vũ Minh Ngọc 30 Phần V. Sơ lược về các thuật toán tin sinh 5.1. Thuật toán Blast Ý tưởng của BLAST dựa trên cơ sở x|c suất rằng những chuỗi bắt cặp trình tự (alignment) thường sở hữu nhiều đoạn chuỗi con có tính tương tự cao. Những chuỗi con n{y được mở rộng để tăng tính tương tự trong qu| trình tìm kiếm. Thuật to|n của BLAST có 2 phần, một phần tìm kiếm v{ một phần đ|nh gi| thống kê dựa trên kết quả tìm được. Thuật to|n tìm kiếm của BLAST bao gồm 3 bước sau: Bước 1: BLAST tìm kiếm c|c chuỗi con ngắn với chiều d{i cố định W có tính tương tự cao (không cho phép khoảng trống gaps) giữa chuỗi truy vấn v{ c|c chuỗi trong cơ sở dữ liệu. Những chuỗi con với chiều d{i W được BLAST gọi l{ một từ (word). Gi| trị W tham khảo cho Protein l{ 3 v{ DNA l{ 11. Những chuỗi con n{y được đ|nh gi| cho điểm dựa trên ma trận thay thế (Substitutionsmatrix) BLOSUM hoặc PAM, những chuỗi con n{o có số điểm lớn hơn một gi| trị ngưỡng T (threshold value) thì được gọi l{ tìm thấy v{ được BLAST gọi l{ Hits. Ví dụ, khi cho sẵn c|c chuỗi AGTTAH v{ ACFTAQ v{ một từ có chiều d{i W = 3, BLAST sẽ x|c định chuỗi con TAH v{ TAQ với số điểm theo ma trận PAM l{ 3 + 2 + 3 = 8 v{ gọi chúng l{ một Hit. Bước 2: BLAST tiếp tục tìm kiếp những cặp Hits tiếp theo dựa trên cơ sở những Hit đ~ tìm được trong bước 1. Những cặp Hits n{y được BLAST giới hạn bởi một gi| trị cho trước d, gọi l{ khoảng c|ch giữa những Hits. Những cặp Hits có khoảng c|ch lớn hơn d sẽ bị BLAST bỏ qua. Gi| trị d phụ thuộc v{o độ d{i W ở bước 1, ví dụ nếu W = 2 thì gi| trị d đề nghị l{ d=16. Bước 3: Cuối cùng BLAST mở rộng những cặp Hits đ~ tìm được theo cả hai chiều v{ đồng thời đ|nh số điểm. Qu| trình mở rộng kết thúc khi điểm của c|c cặp Hits không thể mở rộng thêm nữa. Một điểm chú ý ở đ}y l{ phiên bản gốc của BLAST không cho phép chỗ trống (gap) trong qu| trình mở rộng, nhưng ở phiên bản mới hơn đ~ cho phép chỗ trống. Những cặp Hits sau khi mở rộng có điểm số cao hơn một gi| trị ngưỡng S (threshold value) thì được BLAST gọi l{ "cặp điểm số cao" (high scoring pair) HSP. Vũ Minh Ngọc 31 Ví dụ, với chuỗi AGTTAHTQ v{ ACFTAQAC với Hit TAH v{ TAQ sẽ được mở rộng như sau: AGTTAHTQ xxx||||x ACFTAQAC Những cặp HSP đ~ tìm được được BLAST sắp xếp theo gi| trị đ|nh gi| giảm dần, đưa ra m{n hình, v{ thực hiện phần đ|nh gi| thống kê trên những cặp HSP n{y. Trong phần đ|nh gi| thống kê, BLAST dựa trên cơ sở đ|nh gi| của một cặp HSP để tính ra một gi| trị gọi l{ ''Bit-Score'', gi| trị n{y không phụ thuộc v{o ma trận thay thế v{ được sử dụng để đ|nh gi| chất lượng của c|c bắt cặp. Gi| trị c{ng cao chứng tỏ khả năng tương tựu của c|c bắt cặp c{ng cao. Ngo{i ra BLAST tính to|n một gi| trị trông đợi E-Score (Expect-Score) phụ thuộc v{o Bit-Score. Gi| trị E-Score n{y thể hiện x|c suất ngẫu nhiên của c|c bắt cặp, gi| trị c{ng thấp c{ng chứng tỏ những bắt cặp n{y được ph|t sinh theo quy luật tự nhiên, ít phụ thuộc v{o tính ngẫu nhiên. 5.2. Thuật toán Landau-Vishkin 5.2.1. Một số khái niệm Cho c|c chuỗi v{ với | | v{ | | ( ) trên một bảng chữ c|i ∑, chúng ta có một v{i định nghĩa sau:  l{ một chuỗi rỗng  l{ chuỗi con (substring) của khi v{ với v{ . Nếu ta nói rằng l{ chuỗi con ho{n to{n của  l{ tiền tố của nếu v{ với nếu thì ta nói rằng l{ tiền tố ho{n to{n của  l{ hậu tốt của nếu với . Nếu thì chúng ta nói rằng l{ hậu tố ho{n to{n của . Chúng ta cũng nói rằng khi l{ hậu tố thứ của (đó l{ hậu tố của bắt đầu từ vị trí )  Tiền tố chung d{i nhất - ( ) của v{ l{ chuỗi lớn nhất m{ v{ . Nếu thì . Chú ý l{ biểu diễn của à . Nếu v{ l{ rõ r{ng trong ngữ cảnh thì chúng ta viết đơn giản l{ .  Phần mở rộng chung d{i nhất – ( ) của v{ tại vị trí l{ độ d{i của của v{ . Nếu v{ l{ rõ r{ng trong ngữ cảnh, chúng ta có thể viết đơn giản l{ . Trong phần n{y chúng ta gọi chuỗi l{ v{ chuỗi chuỗi l{ Vũ Minh Ngọc 32 5.2.2. Khớp xâu xấp xỉ (Approximate String Matching) Định nghĩa 1: Edit distance (Khoảng c|ch sửa đổi) Khoảng c|ch sửa đổi giữa hai x}u v{ l{ số lượng tối thiểu c|c hoạt động c{n thiết để chuyển đổi th{nh hay th{nh , trong đó c|c hoạt động được định nghĩa như sau:  Thay thế: Khi một kí tự của được thay thế bằng một kí tự của  Thêm: Khi một kí tự của được thêm v{o vị trí j của  Xóa: Khi một kĩ tự được xóa khỏi Một chuỗi c|c hoạt động cần thiết để chuyển đổi th{nh được gọi l{ bản ghi sửa đổi (edit transcript) của th{nh . Một xắp h{ng (alignment) của v{ l{ một dại diện của c|c hoạt động |p dụng trên v{ , thường đặt một chuỗi lên trên một chuỗi kh|c, v{ l{m đầy bằng c|c dấu gạch ngang (‘-‘) v{o vị trí trong v{ tại những chỗ m{ một khoảng trống được thêm v{o để mỗi kí tự hoặc khoảng trống trên một trong hai string đối diện l{ kí tự duy nhất hoặc khoảng trống duy nhất trên v{ . Định nghĩa 2: Approximate string matching with differences (khớp x}u xấp xỉ với k điểm kh|c) Khớp x}u với k điểm kh|c giữa một khuôn mẫu v{ văn bản l{ vấn đề của việc tìm kiếm mỗi cặp vị trí ( trong sao cho khoảng c|ch sửa đổi giữa v{ nhiều nhất l{ . 5.2.3. Giải pháp quy hoạch động Chúng ta có thể tìm thấy khoảng c|ch sửa đổi giữa hai chuỗi v{ từ khoảng c|ch:  giữa v{  giữa v{  giữa v{ Bằng c|ch giải quyết quan hệ đệ quy: { min ớ ì ư Mối quan hệ n{y có thể được tính to|n bằng một ma trận quy hoạch động đơn giản sử dụng một bảng quy hoạch động . Vũ Minh Ngọc 33 5.2.4. Cơ bản về thuật to|n Landau-Vishkin Landau-Vishkin trình diễn một thuật to|n cho vấn để khớp x}u xấp xỉ với k điểm kh|c. Thuật to|n n{y chia th{nh hai pha: pha tiền xử lý v{ pha lặp. Trong pha tiền xử lý, c|c pattern v{ text được tiền xử lý với tính to|n có Trong pha lặp, thuật to|n lặp lần trên mỗi đường chéo của bảng quy hoạch động v{ tìm ra tất cả c|c xắp h{ng (match) của với nhiều nhất điểm kh|c. Vũ Minh Ngọc 34 Phần VI. Sơ lược về BlastReduce 6.1. Tóm tắt: Thế hệ tiếp theo của m|y trình tự DNA sinh ra một chuỗi dữ liệu với tốc độ chưa từng thấy, nhưng c|c thuật to|n alignment xử lý trình tự đơn truyền thống cố gắng đấu tranh để theo kịp với chúng. BlastReduce l{ một thuật to|n đọc mapping song song mới tối ưu cho sắp xếp dữ liệu chuỗi từ c|c m|y tham chiếu tới bộ gen, để sử dụng trong ph}n tích sự đa dạng của sinh học, bao gồm kh|m ph| SNP, kiểu gen, v{ c| thể gen. Nó được mô hình hóa sau khi sử dụng thuật to|n liên kết chuối BLAST, nhưng sử dụng c{i đặt hadoop của MapReduce để xử lý song song trên nhiều node tính to|n. Để đ|nh gi| hiệu quả của nó, BlastReduce đ~ được sử dụng để map cữ liệu chuỗi thế hệ tiếp theo với một tham chiếu tới hệ gen của vi khuẩn ở một loạt c|c cấu hình. Kết quả cho thấy quy mô của BlastReduce tăng tuyến tính theo số lượng c|c xử lý chuối, v{ với sự tăng tốc như tăng số lượng bộ vi xử lý. Trong một cấu hình kiêm tốn với 24 bộ vi xử lý, BlastReduce nhanh gấp 250 lần BLAST xử lý trên một nh}n, v{ giảm thời gian xử lý từ v{i ng{y xuống còn v{i phút ở cùng mức độ nhạy cảm. 6.2. Read Mapping Sau khi lập trình tự AND mới được tạo ra để đọc thường được xắp h{ng hoặc |nh xạ với chuỗi bộ gen tham khảo để tìm c|c vùng m{ diễn ra việc đọc từng khoảng một. Một thuật to|n |nh xạ đọc (read mapping) b|o c|o tất cả c|c sắp h{ng (alignment) m{ có điểm trong ngưỡng điểm, thường thể hiện như số lượng tối đa có thể chấp nhận được của sự kh|c nhau giữa read v{ bộ gen tham chiếu (nói chung hầu hết l{ v{o khoảng 1%-10% của chiều d{i read). C|c thuật to|n liên kết có thể cho phép chỉ c|c mismatche l{ kh|c nhau, vấn đề k-mismatch, hoặc nó cũng có thể xem xét sắp h{ng có dấu c|ch (gapped alignment) trong trường hợp thêm hoặc xóa kí tự, vấn đền k-kh|c nhau). Thuật to|n xắp h{ng chuỗi Smith-Waterman cổ điểntính to|n c|c xắp h{ng có dấu c|ch sử dụng quy hoạch động. Nó xem xét tất cả c|c xắp h{ng có thể của một cặp c|c chuỗi với thời gian tỉ lệ thuận với độc d{i của chúng. Một biến thể của thuật to|n Smith- Waterman, được gọi l{ xắp h{ng dải, bản chất cũng sử dụng quy hoạch động nhưng hạn chế việt tìm kiếm c|c xắp h{ng với một số lượng nhỏ sự kh|c biệt. Với một cặp đơn c|c chuỗi tính to|n một xắp h{ng Smith-Waterman thì thường l{ một hoạt động nhanh, nhưng sẽ nên tính to|n không khả thi khi só lượng c|c chuỗi tăng. Thay v{o đó, c|c nh{ nghiên cứu sử dụng kĩ thuật hạt giống v{ mở rộng để đẩy nhanh tốc độ tìm kiếm rất giống với xắp h{ng. C|i quan trọng l{ sự quan s|t m{ sự sắp h{ng rất gióng nhau phải chắc chắn có ý nghĩa sắp xếp. Bằng c|ch sử dụng nguyên lý lồng chim bồ c}u, với 20bp đọc align với một c|i kh|c, bạn phải có ít nhất một xắp h{ng 10bp trong một xắp h{ng n{o đó. Nói chung, một aligment có độ d{i đấy đủ l{ m bp đọc với e mismatch phải chứa ít nhất một xắp h{ng m/(e+1) bp. Một số thuật to|n xắp chuỗi tuần tự, bao gồm cả thuật to|n phổ biến l{ công cụ BLAST v{ MUMmer sử dụng kĩ thuật n{y để xắp h{ng nhanh. Trong giai đoạn hạt giống, c|c công cụ n{y tìm kiếm c|c chuỗi con m{ giống nhau giữa hai chuỗi. Ví dụ, BLAST x}y dụng Vũ Minh Ngọc 35 một bảng băm có đọ d{i cố định gối c|c chuỗi con được gọi l{ k-mers của chuỗi tham khảo để tìm hạt giống, v{ MUMmer x}y dụng c}y hậu tố của chuỗi tham khảo để tìm biến chiều d{i lớn nhất của hạt giống. Sau đó trong pha mở rộng c|c công cụ tính to|n gi| chính x|c trong d{i xắp h{ng Smith-Waterman giới hạn với chuỗi con tương đối ngắn gần c|c hạt giống được chia sẻ. Kĩ thuật n{y có thể giảm đ|ng kể thời gian cần thiết để xắp h{ng c|c chỗi tại một mức nhạy cảm. Dù vậy, sự nhạy cả tăng bằng nhiều c|c kh|c nhau, chiều d{i hạt giống giảm, hay số c|c lượng c|c hạt giống match ngẫu nhiên sẽ l{m tăng tổng thời gian tính to|n. Thuật to|n xắp h{ng k-difference Landau-Vishkin l{ một thuậ to|n quy hoạch động thay thế để x|c định nếu hai xắp h{ng hai chuỗi với hầu hết có k-difference. Không giống như thuật to|n quy hoạch động Smith-Waterman, m{ x}y dựng tất cả c|c xắp h{ng có thể, thuật to|n Landau-Vishkin x}y dựng chỉ c|c sắp h{ng giống nhau tới m{ có số lượng c|c điểm kh|c l{ cố định bằng c|ch tính to|n có bao nhiêu kí tự trong sking có thể được xắp h{ng với i=0 tới k điểm kh|c nhau. Số lượng c|c kí tự m{ được sắp h{ng sử dụng I điểm kh|c được tính to|n từ kết quả của (i-1) bằng c|ch tính to|n chính x|c phần mở rộng có thể sau mở đầu một mismatch, một điểm thêm v{o hoặc xóa từ cuối của xắp h{ng i-1. Thuật to|n kết thúc khi i=k+1, cho thấy không tồm tại xắp h{ng k-difference cho c|c trình tự, hoặc kết thúc của chuỗi đ~ đạt được. Thuật to|n nay rất nhan hơn so với thuậ to|n Smitch-WaterMan đầy đủ với số lượng k nhỏ, bởi vì chỉ một số lượng nhỏ c|c xắp h{ng tiềm năng. 6.3. Thuật toán BlastReduce BlastReduce l{ một thuật to|n đọc |nh xạ song song (parallel read mapping algorithm) viết bằng Java với Hadoop. Nó được mô hình trên thuật to|n BLAST, v{ được tối ưu cho |nh xạ c|c đoạn read nhỏ từ c|c m|y chuỗi thế hệ tiếp theo tới bộ gen tham khảo. Giống như BLAST, nó l{ thuật to|n hạt giống v{ mở rộng, sử dụng c|c từ có độ d{i cố định l{m hạt giống. Nhưng không giống với BLAST, BlastReduce sử dụng thuật to|n Landau-Vishkin để mở rộng c|c hạt giống một c|ch nhanh chóng để tìm c|c xắp h{ng với hầu hết k-difference. C|i thuật to|n mở rộng n{y thích hợp hơn cho c|c đoạn read ngắn với số lượng nhỏ c|c kh|c biệt (thường k=1 hoặc k=2 cho 25-50bp read). Kích thước hạt giống (s) l{ tự động được tính to|n dựa trên độ d{i của read v{ số lượng tối đa c|c kh|c biệt (k) do người sử dụng đưa ra. Đầu v{o cho ứng dụng l{ một file đa fasta chứa một hoặc nhiều chuỗi tham khảo. C|c file n{y đầu tiên được chuyển đổi thanh SequenceFile nén của Hadoop thích hợp để xử lý với Hadoop.SequenceFile m{ không hỗ trợ c|c chuỗi có trình tự lớn hơn 65.565 ký tự để c|c chuỗi d{i ph}n t|ch th{nh c|c khối. C|c chuỗi được lưu trữ ở dạng cặp key-value trong SequenceFile như (id, SeqInfo) trong đó SeqInfor l{ một bộ (sequence, start-offset, tag), trong đó start_offset l{ độ lệch (offset) của khối chứa trong chuỗi đầy đủ. Những c|i khối n{y xếp xếp chồng lên nhau với s-1 bp để tất cả c|c hạt giống được biểu diễn chỉ một lần v{ c|c chuỗi tham khảo sẽ được b|o rằng tag=1. Sau khi chuyển đổi, SequenceFile được copy v{o HDFS để thuật to|n read mapping có thể được thực thi. Vũ Minh Ngọc 36 Thuật to|n read mapping yêu cầu 3 vòng MapReduce, v{ như mô tả dưới hình 1. Hai vòng đầu tiên l{ MerReduce v{ SeedReduce, tìm tất cả c|c match lớn nhất m{ có độ d{i ít nhất l{ s, v{ vòng cuối cùng l{ ExtendReduce, mở rộng c|c hạt giống với thuật to|n Landau-Vishkin v{o tất cả c|c xắp cặp với hầu hết k-difference. 6.3.1. MerReduce: tính các Mer giống nhau Vòng MapReduce tìm c|c mer có độ d{i s m{ giống nhau giữa chuối read v{ chuỗi tham khảo. m{m map xử lý tất cả c|c khối một c|ch độc lập, v{ c|c mer chỉ có trong read hoặc chỉ trong chuỗi tham khảo sẽ tự động được loại bỏ. ExtenReduce cần c|c chuỗi flanking – xếp chính x|c c|c hạt giống cho xắp h{ng, nhưng HDFS thì không hiệu quả cho truy cập ngẫu nhiên. Do đó, Flanking chuỗi (lên tới - s + k bp) bao gôm c|c mer của chuỗi read v{ chuỗi tham khảo vì vậy chúng sẽ có sẵn khi cần thiết. Map: Đối với mỗi mer trong chuỗi đầu v{o, đầu ra của h{m map l{ (mer, Merpos), trong đó MerPos l{ cặp (id, position, tag, left_flank, right_flank). Nếu chuỗi l{ read (tag =0) vì thể tạo ra c|c bản ghi MerPost cho c|c chuỗi bổ xung đảo ngược. M{m map tạo ra tất cả l{ s(M+N) mer, trong đó M l{ tổng độ d{i của chuỗi read, v{ N l{ tổng độ d{i của chuỗi tham khảo. Sau khi tất cả c|c h{m map ho{n th{nh, Madoop sẽ sắp xếp nội bộ c|c cặp key-value, nhóm chúng tất cả c|c cặp m{ có cùng mer v{o một danh s|ch duy nhất c|c bản ghi Merpos. Reduce: h{m reduce tạo ra c|c thông tin vị trí về c|c mer m{ giống nhau ít nhất giữa một chuỗi tham khảo v{ một chuỗi đọc. Nó đòi hỏi phải có hai đường tuyền thông giữa một danh s|ch c|c bản ghi Merpos với mỗi mer. Nó đầu tiên sẽ quét danh s|ch để tìm bản ghi Merpos từ chuỗi tham khảo. Sau đó nó quét danh s|ch lần thứ hai v{ kết quả đầu ra l{ một cặp key- value (read_id, ShareMer) cho mối mer n{o đó xuất hiện trong read v{ chuỗi tham khảo. Một sharedMer l{ một cụm bao gồm (read_position, ref_id, ref_position, read_left_flank, read_right_flank, ref_left_flank, Hình 1. Tổng quan về thuật toán BlastReduce sử dụng 3 vòng MapReduce. Các file tạm được sử dụng một cách nội bộ bởi MapReduce là Shared. Vũ Minh Ngọc 37 ref_right_flank). 6.3.2. SeedReduce: kết hợp các Mer nhất quán Vòng MapReduce giảm thiểu số lượng c|c hạt giống bằng c|ch s|t nhập c|c mer giống nhau v{o trong một hạt giống lớn. Hai mer giống nhau sẽ kết hợp nếu chúng lệch 1bp trong chuỗi read v{ chuỗi reference. Hai mer phù hợp có thể được trộn lại một c|ch an to{n khi chúng |nh xạ thới c|c xắp đoạn giống nhau. Map: H{m map tạo ra c|c cặp giống (read_id, SharedMer) giống với đầu v{o. Sau khi h{m Map kết thúc, tất cả c|c bản ghi SharedMer từ chuỗi đọc đ~ cho sẽ được nhóm nội bộ với nhau trong pha Reduce Reduce: với mối danh s|ch SharedMer đầu tiên được sắp xếp bằng c|ch đọc vị trí, v{ c|c mer phù hợp được đặt (collasces) v{o c|c hạt giống. Hạt giống cuối cùng chính x|c được nối tất cả lại th{nh một chuỗi lớn nhấ có độ d{i tối thiểu l{ s bp. Đầu ra l{ c|c cặp (read_id, ShareSeed) trong đó SharedSeed l{ một cặp bao gồm (read_position, seed_length, ref_id, target_position, read_left_flank, read_right_flank, ref_left_flank, ref_right_flank). 6.3.3. ExtendReduce: mở rộng các hạt giống C|i vòng MapReduce mở rộng c|c hạt giống xắp h{ng (alignment) v{o trong một xắp h{ng không chính x|c sử dụng thuật to|n k-dfference Landau-Vishkin. Map: Đối với mỗi SharedSeed, đoạn m~ cố gắng mở rộng c|c hạt giống giống nhau v{ nối c|c xắp h{ng với nhiều nhất k-difference. Nếu như liên kết tồn tại, đầu ra l{ cặp (read_id, AlignmentInfo), trong đó AlignmentInfo l{ một cặp (ref_id, ref_align_start, ref_align_end, num_differences). Sau khi tất cả c|c h{m map ho{n th{nh, Hadoop nhóm tất cả c|c AlignmentInfor m{ giống read cho h{m reduce. Reduce: C|c h{m reduce lọc c|c xắp h{ng trùng lặp, vì chúng có thể chứa nhiều hạt giống trong cùng một xắp h{ng (alignment). Với mỗi read, đầu tiên sắp xếp c|c bản nghi Alignment bằng trường ref_align_start, v{ sau đó đầu ra duy nhất l{ cặp (read_id, AlignmentInfo) m{ kh|c nhau trường ref_align_start. Đầu ra của ExtenReduce l{ một file chứa tất cả c|c xắp h{ng m{ mỗi read với k- difference. File n{y được copy v{o trong HDFS th{nh một hệ thống file định kì, hoặc tập tin HDFS có thể được xử lý với c|c công cụ b|o c|o đi kèm. Vũ Minh Ngọc 38 Tài liệu tham khảo [1]. Michael C. Schatz - BlastReduce: High Performance Short Read Mapping with MapReduce [2]. Martin Tompa - Biological Sequence Analysis [3]. Stephen F. Altschul', Warren Gish', Webb Miller Eugene W. Myers3 and David J. Lipmanl - Basic Local Alignment Search Tool [4]. eTutorials.org - Basic local alignment search tool (blast) [5]. Rodrigo C´esar de Castro Miranda1, Mauricio Ayala-Rinc´on1, and Leon Solon1 - Modifications of the Landau-Vishkin Algorithm Computing Longest Common Extensions via Suffix Arrays and Efficient RMQ computations [6]. Ricardo Baeza-Yates and Gaston H. Gonnet - A New Approach to String searching

Các file đính kèm theo tài liệu này:

TH055.pdf