Mục lục
Phần I. Giới thiệu chung . 5
1.1. Hadoop l{ gì? . 5
1.2. MapReduce l{ gì? 5
Phần II. Cài đặt Hadoop . 7
1. Cài đặt máy ảo Ubuntu 10.10 (32 bit) trên VMware . 7
1. Cài đặt Vmware tools cho Ubuntu . 7
2. Cài openSSH cho ubuntu 7
3. Cài java: 7
4. Thêm user hadoop vào nhóm hadoop . 8
5. Cấu hình ssh . 9
6. Vô hiệu hóa IPv6 11
7. Download và cài đặt hadoop . 12
a. Download Hadoop 0.20.2 và lưu vào thư mục /usr/local/ 12
b. Cấu hình . 12
c. Định dạng các tên node . 13
d. Chạy hadoop trên cụm một node 13
8. Chạy một ví dụ MapReduce . 14
9. Cài đặt và sử dụng Hadoop trên Eclipse 17
Phần III. Thành phần của Hadoop 20
1. Một số thuật ngữ. 20
2. C|c trình nền của Hadoop 21
2.1. NameNode . 21
2.2. DataNode . 21
2.3. Secondary NameNode 22
2.4. JobTracker . 22
2.5. TaskTracker 23
Phần IV. Lập trình MapReduce cơ bản . 25
1. Tổng quan một chương trình MapReduce 25
2. Các loại dữ liệu mà Hadoop hỗ trợ 26
2.1. Mapper . 27
2.2. Reducer . 28
2.3. Partitioner – chuyển hướng đầu ra từ Mapper 29
Phần V. Sơ lược về các thuật toán tin sinh . 30
5.1. Thuật toán Blast 30
5.2. Thuật toán Landau-Vishkin 31
5.2.1. Một số khái niệm 31
5.2.2. Khớp xâu xấp xỉ (Approximate String Matching) . 32
5.2.3. Giải pháp quy hoạch động 32
Phần VI. Sơ lược về BlastReduce 34
6.1. Tóm tắt: . 34
6.2. Read Mapping . 34
6.3. Thuật toán BlastReduce 35
6.3.1. MerReduce: tính các Mer giống nhau 36
6.3.2. SeedReduce: kết hợp các Mer nhất quán 37
6.3.3. ExtendReduce: mở rộng các hạt giống . 37
Lời nói đầu
Kính ch{o c|c thầy cô!
Sau một thời gian thực tập tốt nghiệp, sau đ}y l{ bản b|o c|o những gì em đ~ l{m được
trong thời gian qua. Nội dung chính trong thời gian thực tập vừa qua l{ Sử dụng Hadoop v{
framework MapReduce để giải quyết b{i to|n tinh sinh học BLAST. Theo cảm nghĩ của em thì
Hadoop l{ một ứng dụng mới v{ cũng không dễ để nắm bắt, v{ việc l{m sao để thuật to|n BLAST
có thể xử lý song song trên Hadoop cũng kh| khó. Nhưng với sự giúp đỡ của thầy hướng dẫn Từ
Minh Phương, v{ c|c anh chị trong công ti VCCorp thì em cũng phần n{o nắm bắt được vẫn đề.
Tuy bản b|o c|o còn sơ s{i, nhưng l{ tiền đề cho những phần kế tiếp. Em sẽ cố gắng
ho{n thiện hơn, v{ ho{n chỉnh đề t{i v{o b{i cuối kho|.
Một lần nữa em xin c|m ơn c|c thầy cô đ~ định hướng v{ hướng dẫn trong suốt thời
gian học tập v{ trong thời gian thực tập vừa qua.
38 trang |
Chia sẻ: banmai | Lượt xem: 5802 | Lượt tải: 1
Bạn đang xem trước 20 trang tài liệu Tìm hiểu Hadoop, MapReduce, và các bài toán ứng dụng, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
Nội dung chính trong thời gian thực tập vừa qua l{ Sử dụng Hadoop v{
framework MapReduce để giải quyết b{i to|n tinh sinh học BLAST. Theo cảm nghĩ của em thì
Hadoop l{ một ứng dụng mới v{ cũng không dễ để nắm bắt, v{ việc l{m sao để thuật to|n BLAST
có thể xử lý song song trên Hadoop cũng kh| khó. Nhưng với sự giúp đỡ của thầy hướng dẫn Từ
Minh Phương, v{ c|c anh chị trong công ti VCCorp thì em cũng phần n{o nắm bắt được vẫn đề.
Tuy bản b|o c|o còn sơ s{i, nhưng l{ tiền đề cho những phần kế tiếp. Em sẽ cố gắng
ho{n thiện hơn, v{ ho{n chỉnh đề t{i v{o b{i cuối kho|.
Một lần nữa em xin c|m ơn c|c thầy cô đ~ định hướng v{ hướng dẫn trong suốt thời
gian học tập v{ trong thời gian thực tập vừa qua.
Vũ Minh Ngọc
5
Phần I. Giới thiệu chung
1.1. Hadoop là gì?
Mục đích : Mong muo n cu a ca c doanh nghie p la tận dụng lươ ng dư lie u khổng lồ
để đưa ra quyết định kinh doanh, Hadoop giu p ca c công ty xử ly kho i lươ ng cơ terabyte
v{ thậm chí l{ petabytes dữ liệu phức tạp tương đối hiệu quả với chi phí thấp hơn.
C|c doanh nghiệp đang nỗ lực tìm kiếm tho ng tin quy gia từ khối lượng lớn dữ
liệu phi cấu trúc được tạo ra bởi c|c web log, công cụ clickstream, c|c sản phẩm truyền
thông x~ hội. Ch nh ye u to đo dẫn la m ta ng sự quan ta m đe n co ng nghệ m~ nguồn mở
Hadoop.
Hadoop, một dự |n phần mềm quản lý dữ liệu Apache với nh}n trong khung
phần mềm MapReduce của Google, được thiết kế để hỗ trợ c|c ứng dụng sử dụng đươ c
số lượng lớn dữ liệu cấu trúc v{ phi cấu trúc.
Không giống như c|c hệ quản tri cơ sở dữ liệu truyền thống, Hadoop được thiết
kế để l{m việc với nhiều loại dữ liệu v{ dữ liệu nguồn. Công nghệ HDFS của Hadoop cho
phép khối lượng lơ n công việc được chia th{nh c|c khối dữ liệu nhỏ hơn được nh}n
rộng v{ ph}n phối trên c|c phần cứng của một cluster đe xử lý nhanh hơn. Công nghệ
n{y đ~ được sử dụng rộng r~i bởi một số trang web lớn nhất thế giới, chẳng hạn như
Facebook, eBay, Amazon, Baidu, v{ Yahoo. C|c nh{ quan s|t nhấn mạnh rằng Yahoo l{
một trong những nh{ đóng góp lớn nhất đối với Hadoop.
1.2. MapReduce là gì?
MapReduce l{ một “mô hình lập trình” (programming model), lần đầu b|o c|o
trong b{i b|o của Jefferey Dean v{ Sanjay Ghemawat ở hội nghị OSDI 2004. MapReduce
chỉ l{ một ý tưởng, một abstraction. Để hiện thực nó thì cần một implementation cụ thể.
Google có một implementation của MapReduce bằng C++. Apache có Hadoop, một
implementation m~ nguồn mở kh|c trên Java thì phải (ít nhất người dùng dùng Hadoop
qua một Java interface).
Khối dữ liệu lớn được tổ chức như một tập hợp gồm rất nhiều cặp (key, value)
Để xử lý khối dữ liệu n{y, lập trình viên viết hai h{m map v{ reduce. H{m map có input
l{ một cặp (k1, v1) v{ output l{ một danh s|ch c|c cặp (k2, v2). Chú ý rằng c|c input v{
output keys v{ values có thể thuộc về c|c kiểu dữ liệu kh|c nhau, tùy hỉ. Như vập h{m
map có thể được viết một c|ch hình thức như sau:
map(k1,v1) -> list(k2,v2)
MR sẽ |p dụng h{m map (m{ người dùng MR viết) v{o từng cặp (key, value)
trong khối dữ liệu v{o, chạy rất nhiều phiên bản của map song song với nhau trên c|c
m|y tính của cluster. Sau giai đoạn n{y thì chúng ta có một tập hợp rất nhiều cặp (key,
value) thuộc kiểu (k2, v2) gọi l{ c|c cặp (key, value) trung gian. MR cũng sẽ nhóm c|c
cặp n{y theo từng key, như vậy c|c cặp (key, value) trung gian có cùng k2 sẽ nằm cùng
một nhóm trung gian.
Vũ Minh Ngọc
6
Giai đoạn hai MR sẽ |p dụng h{m reduce (m{ người dùng MR viết) v{o từng
nhóm trung gian. Một c|ch hình thức, h{m n{y có thể mô tả như sau:
reduce(k2, list (v2)) -> list(v3)
Trong đó k2 l{ key chung của nhóm trung gian, list(v2) l{ tập c|c values trong
nhóm, v{ list(v3) l{ một danh s|ch c|c gi| trị trả về của reduce thuộc kiểu dữ liệu v3. Do
reduce được |p dụng v{o nhiều nhóm trung gian độc lập nhau, chúng lại một lần nữa có
thể được chạy song song với nhau.
Ví dụ cơ bản nhất của MR l{ b{i đếm từ (Tiếng Anh). Rõ r{ng đ}y l{ một b{i to|n
cơ bản v{ quan trọng m{ một search engine phải l{m. Nếu chỉ có v{i chục files thì dễ rồi,
nhưng nhớ rằng ta có nhiều triệu hay thậm chí nhiều tỉ files ph}n bố trong một cluster
nhiều nghìn m|y tính. Ta lập trình MR bằng c|ch viết 2 h{m cơ bản với pseudo-code như
sau:
void map(String name, String document):
// name: document name
// document: document contents
for each word w in document:
EmitIntermediate(w, "1");
void reduce(String word, Iterator partialCounts):
// word: a word
// partialCounts: a list of aggregated partial counts
int result = 0;
for each pc in partialCounts:
result += ParseInt(pc);
Emit(AsString(result));
Chỉ với hai primitives n{y, lập trình viên có rất nhiều flexibility để ph}n tích v{
xử lý c|c khối dữ liệu khổng lồ. MR đ~ được dùng để l{m rất nhiều việc kh|c nhau, ví dụ
như distributed grep, distributed sort, web link-graph reversal, term-vector per host,
web access log stats, inverted index construction, document clustering, machine
learning, statistical machine translation, large-scale graph computation …
Vũ Minh Ngọc
7
Phần II. Cài đặt Hadoop
1. Cài đặt máy ảo Ubuntu 10.10 (32 bit) trên VMware
- Sử dụng VMware® Workstation 7.0.0 build-203739 (32-bit)
- Hệ điều h{nh Ubuntu Desktop Edittion 10.10 (32-bit)
- Tạo user mặc định l{ hadoop
1. Cài đặt Vmware tools cho Ubuntu
a. Kích hoạt t{i khoản root
- bạn điền pass cho t{i khoản hadoop
- điền tiếp 2 lần pass mới cho t{i khoản root
b. C{i đặt tools cho Ubuntu
- Đăng nhập lại bằng t{i khoản root
- Chọn c{i Vmware tools như hình sau
- V{o m|y ảo Ubuntu, giải nén file VMwareTools-8.1.3-203739.tar.gz v{ chạy
file vmware-install.pl
- Bấm enter để chọn c|c tùy chọn mặc định đặt trong dấu móc vuông
2. Cài openSSH cho ubuntu
3. Cài java:
Hadoop yêu cầu java 1.5.x. Tuy nhiên, bản 1.6.x được khuyến khích khi sử dụng cho
Hadoop, dưới đ}y mô tả c|ch thức c{i java :
a. Thêm Canonical Đối t|c Repository v{o kho apt của bạn
b. Cập nhật danh s|ch nguồn
c. C{i đặt sun-java6-jdk
d. Kiểm tra
$sudo passwd root
$ sudo apt-get install openssh-server openssh-client
$ sudo add-apt-repository "deb
lucid partner"
$ sudo apt-get update
$ sudo apt-get install sun-java6-jdk
Vũ Minh Ngọc
8
4. Thêm user hadoop vào nhóm hadoop
user@ubuntu:~# java -version
java version "1.6.0_20"
Java(TM) SE Runtime Environment (build 1.6.0_20-b02)
Java HotSpot(TM) Client VM (build 16.3-b01, mixed mode,
sharing)
Vũ Minh Ngọc
9
5. Cấu hình ssh
Hadoop yêu cầu truy cập SSH để quản lý c|c node của nó, ví dụ như điều kiển một
m|y tính từ xa cộng với m|y cục bộ của bạn nếu như bạn muốn Hadoop l{m việc trên đó.
Trong thiết lập đơn node cho haddop , chúng ta cấu hình ssh truy cập tới localhost cho
user hadoop m{ chúng ta tạo ra ở phần trước.
a. Đăng nhập từ t{i khoản hadoop
b. Sử dụng dòng lệnh
// Không nhập gì trong 3 lần hỏi, chỉ ấn xuống dòng Enter
Vũ Minh Ngọc
10
c. Bạn phải cho phép SSH truy cập tới m|y cục bộ của bạn với khóa mới:
d. Kiểm tra c|c c{i đặt SSH bằng c|ch kết nối với m|y tính cục bộ của bạn với user
hadoop. Bước n{y cũng cần thiết để lưu trữ dấu v}n tay của m|y bạn trong file
know_host. Nếu bạn có bất cứ cấu hình đặc biệt cho SSH giống như một cổng SSH
không chuẩn, bạn có thể định nghĩa lại trong $HOME/.ssh/config
hadoop@hadoop:~$ ssh-keygen -t rsa
Generating public/private rsa key pair.
Enter file in which to save the key (/home/hadoop/.ssh/id_rsa):
Created directory '/home/hadoop/.ssh'.
Enter passphrase (empty for no passphrase):
Enter same passphrase again:
Your identification has been saved in /home/hadoop/.ssh/id_rsa.
Your public key has been saved in /home/hadoop/.ssh/id_rsa.pub.
The key fingerprint is:
19:f5:c2:b2:19:25:83:25:8f:ec:45:f7:4a:c3:59:25 hadoop@hadoop
The key's randomart image is:
+--[ RSA 2048]----+
| .o= + E.. |
| ..= O = . |
| o * B o |
| . . O + |
| . S . |
| |
| |
| |
| |
+-----------------+
hadoop@hadoop:~$ cd ~/.ssh
hadoop@hadoop:~/.ssh$ cat id_rsa.pub >> authorized_keys
Vũ Minh Ngọc
11
6. Vô hiệu hóa IPv6
Một vấn đề với IPv6 trên Ubuntu l{ việc sử dụng 0.0.0.0 cho c|c tùy chọn cấu hình
Hadoop cho c|c mạng có liên quan đến nhau sẽ cho kết quả Hadoop liên kết đến c|c địa
chỉ IPv6 của my Ubuntu box.
a. Để vô hiệu hóa IPv6 trong Ubuntu 10.10, mở /etc/sysctl.conf trong editor bạn
thêm dòng sau v{o cuối file:
b. Khởi động lại m|y để thay đổi có hiệu quả.
c. Để kiểm tra lại bạn có thể sử dụng dòng lệnh sau
Kết quả trả về l{ 0 tức l{ IPv6 vẫn còn được kích hoạt, bằng 1 l{ đ~ được vô hiệu
hóa.
hadoop@hadoop:~/.ssh$ ssh localhost
The authenticity of host 'localhost (::1)' can't be established.
RSA key fingerprint is 0a:3d:86:06:28:82:7f:3a:35:0b:83:d5:35:ee:b8:b1.
Are you sure you want to continue connecting (yes/no)? yes
Warning: Permanently added 'localhost' (RSA) to the list of known hosts.
Linux hadoop 2.6.35-22-generic #33-Ubuntu SMP Sun Sep 19 20:34:50 UTC
2010 i686 GNU/Linux
Ubuntu 10.10
Welcome to Ubuntu!
* Documentation: https://help.ubuntu.com/
The programs included with the Ubuntu system are free software;
the exact distribution terms for each program are described in the
individual files in /usr/share/doc/*/copyright.
Ubuntu comes with ABSOLUTELY NO WARRANTY, to the extent permitted by
applicable law.
#disable ipv6
net.ipv6.conf.all.disable_ipv6 = 1
net.ipv6.conf.default.disable_ipv6 = 1
net.ipv6.conf.lo.disable_ipv6 = 1
$ cd /
$ cat /proc/sys/net/ipv6/conf/all/disable_ipv6
Vũ Minh Ngọc
12
7. Download và cài đặt hadoop
a. Download Hadoop 0.20.2 và lưu vào thư mục /usr/local/
b. Cấu hình
i. hadoop-env.sh
C{i đặt JAVA_HOME. Thay đổi
# The java implementation to use. Required.
# export JAVA_HOME=/usr/lib/j2sdk1.5-sun
Th{nh :
# The java implementation to use. Required.
export JAVA_HOME=/usr/lib/jvm/java-6-sun
ii. conf/core-site.xml
hadoop.tmp.dir
/your/path/to/hadoop/tmp/dir/hadoop-${user.name}
A base for other temporary directories.
fs.default.name
hdfs://localhost:54310
The name of the default file system. A URI whose
scheme and authority determine the FileSystem implementation. The
uri's scheme determines the config property (fs.SCHEME.impl) naming
the FileSystem implementation class. The uri's authority is used to
determine the host, port, etc. for a filesystem.
iii. conf/mapred-site.xml
mapred.job.tracker
localhost:54311
The host and port that the MapReduce job tracker runs
at. If "local", then jobs are run in-process as a single map
and reduce task.
$ cd /usr/local
$ sudo tar xzf hadoop-0.20.2.tar.gz
$ sudo mv hadoop-0.20.2 hadoop
$ sudo chown -R hadoop:hadoop hadoop
Vũ Minh Ngọc
13
iv. conf/hdfs-site.xml
dfs.replication
1
Default block replication.
The actual number of replications can be specified when the file is created.
The default is used if replication is not specified in create time.
c. Định dạng các tên node
Đầu tiên để khởi động Hadoop vừa của bạn l{ định dạng lại hệ thống tệp
tin Hadoop m{ được thực hiện trên đầu của hệ thống tệp tin của bạn. Bạn cần
phải l{m việc n{y trong lần đầu chạy. Bạn chạy lệnh sau:
Kết quả:
d. Chạy hadoop trên cụm một node
Sử dụng c}u lệnh : $ /bin/start-all.sh
Kết quả như sau:
hadoop@ubuntu:~$ /hadoop/bin/hadoop namenode -format
Vũ Minh Ngọc
14
Một tool kh| thuật tiện để kiểm tra xem c|c tiến trình Hadoop đang chạy l{ jps:
Bạn cũng có thể kiểm tra với netstart nếu Hadoop đang nghe trên c|c cổng đ~
được cấu hình:
e. Dừng hadoop trên cụm một node
Sử dụng lệnh : /bin/stop-all.sh
8. Chạy một ví dụ MapReduce
Chúng ta chạy ví dụ WordCount có sẵn trong phần ví dụ của Hadoop. Nó xẽ đếm
c|c từ trong file v{ số lần xuất hiện. file đầu v{o v{ đầu ra đề l{ dạng text, mỗi dòng
trong file đầu ra chứa từ v{ số lần xuất hiện, ph}n c|ch với nhau bởi dấu TAB.
a. Download dữ liệu đầu v{o
Download 3 cuốn s|ch từ Project Gutenberg:
The Outline of Science, Vol. 1 (of 4) by J. Arthur Thomson
The Notebooks of Leonardo Da Vinci
Ulysses by James Joyce
Chọn file trong Plain Text UTF-8, sau đó copy v{o thư mục tmp của Hadoop:
/tmp/gutenberg , kiểm tra lại như sau:
Vũ Minh Ngọc
15
Restart lại hadoop cluster: hadoop@ubuntu:~$ /bin/start-all.sh
b. Copy dữ liệu v{o HDFS
c. Chạy MapReduce job
Sử dụng c}u lệnh sau:
Trong c}u lệnh n{y bạn sửa th{nh phiên bản m{ bạn đang sử dụng. Bạn
có thể kiểm tra trong thư mục c{i Hadoop có chứa file *.jar n{y. C}u lệnh n{y sẽ đọc tất cả
c|c file trong thư mục butenberg từ HDFS, xử lý v{ lưu kết quả v{o gutenberg-output. Kết
quả đầu ra như sau:
01 hadoop@ubuntu:/usr/local/hadoop$ bin/hadoop dfs -copyFromLocal
/tmp/gutenberg gutenberg
02 hadoop@ubuntu:/usr/local/hadoop$ bin/hadoop dfs -ls
03 Found 1 items
04 drwxr-xr-x - hadoop supergroup 0 2010-05-08 17:40
/user/hadoop/gutenberg
05 hadoop@ubuntu:/usr/local/hadoop$ bin/hadoop dfs -ls gutenberg
06 Found 3 items
07 -rw-r--r-- 3 hadoop supergroup 674566 2011-03-10 11:38
/user/hadoop/gutenberg/pg20417.txt
08 -rw-r--r-- 3 hadoop supergroup 1573112 2011-03-10 11:38
/user/hadoop/gutenberg/pg4300.txt
09 -rw-r--r-- 3 hadoop supergroup 1423801 2011-03-10 11:38
/user/hadoop/gutenberg/pg5000.txt
10 hadoop@ubuntu:/usr/local/hadoop$
hadoop@ubuntu:/usr/local/hadoop$ bin/hadoop jar hadoop--
examples.jar wordcount gutenberg gutenberg-output
Vũ Minh Ngọc
16
Kiểm tra kết quả nếu lưu th{nh công:
Vũ Minh Ngọc
17
Nếu bạn muốn sửa đổi c|c thiết lập của Hadoop giống như tăng số task Reduce
lên, bạn có thể sử dụng tùy chọn “-D” như sau:
d. Lấy kết quả từ HDFS
Để kiểm tra c|c file, bạn có thể copy nó từ HDFS đến hệ thống file địa phương.
Ngo{i ra, bạn có thể sử dụng lệnh sau:
Trong ví dụ n{y, chúng ta có thể copy như sau:
9. Cài đặt và sử dụng Hadoop trên Eclipse
a. Download v{ c{i đặt plug-in
C|c bạn download:
Eclipse SDK Version: 3.5.2
Hadoop plug-in cho Eclipse: hadoop-0.20.1-eclipse-
plugin.jar
Copy hadoop-0.20.1-eclipse-plugin.jar v{o trong thư mục plug-ins của
Eclipse
b. C{i đặt MapReduce location
Khởi động Eclipse, bạn bấm v{o nút trong vòng đỏ:
hadoop@ubuntu:/usr/local/hadoop$ bin/hadoop jar hadoop-0.20.2-
examples.jar wordcount -D mapred.reduce.tasks=16 gutenberg
gutenberg-output
hadoop@ubuntu:/usr/local/hadoop$ bin/hadoop dfs -cat gutenberg-
output/part-r-00000gutenberg-output
Vũ Minh Ngọc
18
Sau đó chọn Other… => MapRecude => OK
Kích chuột phải v{o phần trống của Location trong TAB Map/Recude Locations,
chọn New Hadoop location… V{ điền c|c tham số như hình dưới:
Vũ Minh Ngọc
19
Khởi động Hadoop cluster như trên, v{ kiểm tra DFS như hình dưới đ}y
Vũ Minh Ngọc
20
Phần III. Thành phần của Hadoop
1. Một số thuật ngữ.
- MapReduce job l{ một đơn vị của công việc m{ kh|ch h{ng (client) muốn được thực
hiện: nó bao gồm dữ liệu đầu v{o, chương trình MapReduce, v{ thông tin cấu hình.
Hadoop chạy c|c công việc (job) n{y bằng c|ch chia nó th{nh c|c nhiệm vụ (task), trong
đó có hai kiểu chính l{ : c|c nhiệm vụ map (map task) v{ c|c nhiệm vụ reduce (reduce
task)
- Có hai loại node điều kiển qu| trình thực hiện công việc (job): một jobtracker v{ một số
tasktracker. Jobtracker kết hợp tất cả c|c công việc trên hệ thống bằng c|ch lập lịch
công việc chạy trên c|c tasktracker. Tasktracker chạy c|c nhiệm vụ (task) v{ gửi b|o c|o
thực hiện cho jobtracker, c|i lưu giữ c|c bản nghi về qu| trình xử lý tổng thể cho mỗi
công việc (job)
- Hadoop chia đầu v{o cho mỗi công việc MapReduce v{o c|c mảnh (piece) có kích thước
cố định gọi l{ c|c input split hoặc l{ c|c split. Hadoop tạo ra một task map cho mỗi split,
c|i chạy mỗi nhiệm vụ map do người sử dụng định nghĩa cho mỗi bản ghi (record) trong
split.
- Có rất nhiều c|c split , điều n{y có nghĩa l{ thời gian xử lý mỗi split nhỏ hơn so với thời
gian xử lý to{n bộ đầu v{o. Vì vậy, nếu chúng ta xử lý c|c split một c|ch song song, thì
qu| trình xử lý sẽ tốt hơn c}n bằng tải, nếu c|c split nhỏ, khi đó một chiếc m|y tính
nhanh có thể xử lý tương đương nhiều split trong qu| trình thực hiện công việc hơn l{
một m|y tính chậm. Ngay cả khi c|c m|y tính giống hệt nhau, việc xử lý không th{nh
công hay c|c công việc kh|c đang chạy đồng thời l{m cho cần bằng tải như mong muốn,
v{ chất lượng của c}n bằng tải tăng như l{ chia c|c splits th{nh c|c hạt mịn hơn
- Mặt kh|c, nếu chia t|ch qu| nhỏ, sau đó chi phí cho việc quản lý c|c split v{ của tạo ra
c|c map task bắt đầu chiếm rất nhiều tổng thời gian của qu| trình xử lý công việc. Đối
với hầu hết công việc, kích thước split tốt nhất thường l{ kích thước của một block của
HDFS, mặc định l{ 64MB, mặc dù nó có thể thay đổi được cho mỗi cluster ( cho tất cả c|c
file mới được tạo ra) hoặc định rõ khi mỗi file được tạo ra.
- Hadoop l{m tốt nhất c|c công việc của nó chạy c|c map task trên một node khi m{ dữ
liệu đầu v{o của nó cư trú ngay trong HDFS. Nó được gọi l{ tối ưu hóa dữ liệu địa
phương. B}y giờ chúng ta sẽ l{m rõ tại sao kích thước split tối ưu lại bằng kích thước
của block: nó l{ kích thước lớn nhất của một đầu v{o m{ có thể được đảm bảo để được
lưu trên một node đơn. Nếu split được chia th{nh 2 block, nó sẽ không chắc l{ bất cứ
node HDFS n{o lưu trữ cả hai block, vì vaayjmootj số split phải được chuyển trên mạng
đến node chạy map tast, như vậy rõ r{ng l{ sẽ ít hiệu quả hơn việc chạy to{n bộ map
task sử dụng dữ liệu cục bộ.
- C|c map task ghi đầu ra của chúng trên đĩa cụ bộ, không phải l{ v{o HDFS. Tại sao lại
như vậy? Đầu ra của map l{ đầu ra trung gian, nó được xử lý bởi reduce task để tạo ra
Vũ Minh Ngọc
21
đầu ra cuối cùng , v{ một khi công việc được ho{n th{nh đầu ra của map có thể được bỏ
đi. Vì vậy việc lưu trữ nó trong HDFS, với c|c nh}n bản, l{ không cần thiết. Nếu c|c node
chạy maptask bị lỗi trước khi đầu ra map đ~ được sử dụng bởi một reduce task, khi đó
Hadoop sẽ tự động chạy lại map task trên một node kh|c để tạo ra một đầu ra map.
- Khi “chạy Hadoop” có nghĩa l{ chạy một tập c|c trình nền - daemon, hoặc c|c chương
trình thường trú, trên c|c m|y chủ kh|c nhau trên mạng của bạn. Những trình nền có vai
trò cụ thể, một số chỉ tồn tại trên một m|y chủ, một số có thể tồn tại trên nhiều m|y chủ.
C|c daemon bao gồm:
● NameNode
● DataNode
● SecondaryNameNode
● JobTracker
● TaskTracker
2. Các trình nền của Hadoop
2.1. NameNode
L{ một trình nền quan trọng nhất của Hadoop - c|c NameNode. Hadoop sử dụng
một kiển trúc master/slave cho cả lưu trữ ph}n t|n v{ xử lý ph}n t|n. Hệ thống lưu trữ
ph}n t|n được gọi l{ Hadoop File System hay HDFS. NameNode l{ master của HDFS để chỉ
đạo c|c trình nền DataNode slave để thực hiện c|c nhiệm vụ I/O mức thấp. NadeNode l{
nh}n viên kế to|n của HDFS; nó theo dõi c|ch c|c tập tin của bạn được ph}n kia th{nh c|c
block, những node n{o lưu c|c khối đó, v{ “kiểm tra sức khỏe” tổng thể của hệ thống tệp
ph}n t|n.
Chức năng của NameNode l{ nhớ (memory) v{ I/O chuyên s}u. Như vậy, m|y
chủ lư trữ NameNode thường không lưu trữ bất cứ dữ liệu người dùng hoặc thực hiện bất
cứ một tính to|n n{o cho một ứng dụng MapReduce để giảm khổi lượng công việc trên
m|y. Điều n{y có nghĩa l{ m|y chủ NameNode không gấp đôi (double) như l{ DataNode
hay một TaskTracker.
Có điều đ|ng tiếc l{ có một khía cạnh tiêu cực đến tầm quan trọng của NameNode
nó có một điểm của thất bại của một cụm Hadoop của bạn. Đối với bất cứ một trình nền
kh|c, nếu c|c nút m|y của chúng bị hỏng vì lý do phần mềm hay phần cứng, c|c Hadoop
cluster có thể tiếp tục hoạt động thông suốt hoặc bạn có thể khởi động nó một c|ch nhanh
chóng. Nhưng không thể |p dụng cho c|c NameNode.
2.2. DataNode
Mỗi m|y slave trong cluster của bạn sẽ lưu trữ (host) một trình nền DataNode
để thực hiện c|c công việc n{o đó của hệ thống file ph}n t|n - đọc v{ ghi c|c khối HDFS
Vũ Minh Ngọc
22
tới c|c file thực tế trên hệ thống file cục bộ (local filesytem). Khi bạn muốn đọc hay ghi
một file HDFS, file đó được chia nhỏ th{nh c|c khối v{ NameNode sẽ nói cho c|c client
của bạn nơi c|c mỗi khối trình nền DataNode sẽ nằm trong đó. Client của bạn liên lạc
trực tiếp với c|c trình nền DataNode để xử lý c|c file cục bộ tương ứng với c|c block.
Hơn nữa, một DataNode có thể giao tiếp với c|c DataNode kh|c để nh}n bản c|c khối dữ
liệu của nó để dự phòng.
Hình 2.1 minh họa vai trò của NameNode v{ DataNode. Trong c|c số liệu n{y chỉ
ra 2 file dữ liệu, một c|i ở /user/chuck/data1 v{ một c|i kh|c ở /user/james/data2. File
Data1 chiếm 3 khối, m{ được biểu diễn l{ 1 2 3. V{ file Data2 gồm c|c khối 4 v{ 5. Nội
dung của c|c file được ph}n t|n trong c|c DataNode. Trong minh họa n{y, mỗi block có 3
nh}n bản. Cho ví dụ, lock 1 (sử dụng ở data1) l{ được nh}n bản hơn 3 lần trên hầu hết
c|c DataNodes. Điều n{y đảm bảo rằng nếu có một DataNode gặp tai nạn hoặc không thể
truy cập qua mạng được, bạn vẫn có thể đọc được c|c tệp tin.
C|c DataNode thường xuyên b|o c|o với c|c NameNode. Sa khi khởi tạo, mỗi
DataNode thông b|o với NameNode của c|c khối m{ nó hiện đang lưu trữ. Sau khi
Mapping ho{n th{nh, c|c DataNode tiếp tục thăm dò ý kiến NameNode để cung cấp
thông tin về thay đổi cục bộ cũng như nhận được hướng dẫn để tạo, di chuyển hoặc xóa
c|c blocks từ đĩa địa phương (local).
2.3. Secondary NameNode
C|c Secondary NameNode (SNN) l{ một trình nền hỗ trợ gi|m s|t trạng th|i của
c|c cụm HDFS. Giống như NameNode, mỗi cụm có một SNN, v{ nó thường trú trên một
m|y của mình. Không có c|c trình nền DataNode hay TaskTracker chạy trên cùng một
server. SNN kh|c với NameNode trong qu| trình xử lý của nó không nhận hoặc ghi lại
bất cứ thay đổi thời gian thực tới HDFS. Thay v{o đó, nó giao tiếp với c|c NameNode
bằng c|ch chụp những bức ảnh của siêu dữ liệu HDFS (HDFS metadata) tại nhưng
khoảng x|c định bởi cấu hình của c|c cluster.
Như đ~ đề cập trước đó, NameNode l{ một điểm truy cập duy nhất của lỗi
(failure) cho một cụm Hadoop, v{ c|c bức ảnh chụp SNN giúp giảm thiểu thời gian
ngừng (downtime) v{ mất dữ liệu. Tuy nhiên, một NameNode không đòi hỏi sự can
thiệp của con người để cấu hình lại c|c cluster sẻ dụng SSN như l{ NameNode chính.
2.4. JobTracker
Trình nền JobTracker l{ một liên lạc giữa ứng dụng của bạn { Hadoop. Một khi
bạn gửi m~ nguồn của bạn tới c|c cụm (cluster), JobTracker sẽ quyết định kế hoạch thực
hiện bằng c|ch x|c định những tập tin n{o sẽ xử lý, c|c nút được giao c|c nhiệm vụ kh|c
nhau, v{ theo dõi tất cả c|c nhiệm vụ khi dúng đang chạy. Nếu một nhiệm vụ (task) thất
bại (fail), JobTracker sẽ tự động chạy lại nhiệm vụ đó, có thể trên một node kh|c, cho
đến một giới hạn n{o đó được định sẵn của việc thử lại n{y.
Vũ Minh Ngọc
23
Chỉ có một JobTracker trên một cụm Hadoop. Nó thường chạy trên một m|y chủ
như l{ một nút master của cluster.
2.5. TaskTracker
Như với c|c trình nền lưu trữ, c|c trình nền tính to|n cũng phải tu}n theo kiến
trúc master/slave: JobTracker l{ gi|m s|t tổng việc thực hiện chung của một công việc
MapRecude v{ c|c taskTracker quản lý việc thực hiện c|c nhiệm vụ riêng trên mỗi node
slave. Hình 2.2 minh họa tương t|c n{y.
Mỗi TaskTracker chịu tr|ch nhiệm thực hiện c|c task riêng m{ c|c JobTracker
giao cho. Mặc dù có một TaskTracker duy nhất cho một node slave, mỗi TaskTracker có
thể sinh ra nhiều JVM để xử lý c|c nhiệm vụ Map hoặc Reduce song song.
Một trong những tr|ch nhiệm của c|c TaskTracker l{ liên tục liên lạc với
JobTracker. NeeusJobTracker không nhận được nhịp đập từ mootjTaskTracker trong
vòng một lượng thời gian đ~ quy định, nó sẽ cho rằng TaskTracker đ~ bị treo (cashed)
v{ sẽ gửi lại nhiệm vụ tương ứng cho c|c nút kh|c trong cluster.
Hình 2.2 Tương tác giữa JobTracker và TaskTracker. Sau khi client gọi JobTracker bắt đầu công việc xử lý
dữ liệu, các phân vùng JobTracker làm việc và giao các nhiệm vụ Map và Recude khác nhau cho mỗi
TaskTracker trong cluster.
Vũ Minh Ngọc
24
Hình 2.3 Cấu trúc liên kết của một nhóm Hadoop điển hình. Đó là một kiến trúc master/slave trong đó
NameNode và JobTracker là Master và DataNode & TaskTracker là slave.
Cấu trúc liên kết n{y có một node Master l{ trình nền NameNode v{ JobTracker v{ một
node đơn với SNN trong trường hợp node Master bị lỗi. Đối với c|c cụm nhở, thì SNN có thể
thường chú trong một node slave. Mặt kh|c, đối với c|c cụm lớn, ph}n t|ch NameNode v{
JobTracker th{nh hai m|y riêng. C|c m|y slave, mỗi m|y chỉ lưu trữ một DataNode v{
Tasktracker, để chạy c|c nhiệm vụ trên cùng một node nơi lưu dữ liệu của chúng.
Chúng tôi sẽ thiết lập một cluster Hadoop đầy đủ với mẫu như trên bằng c|ch đầu tiên
thiết lập c|c nút Master v{ kiếm so|t kênh giữa c|c node. Nếu một cluster Hadoop của bạn đ~ có
sẵn, bạn có thẻ nhay qua phần c{i đặt kênh Secure Shell (SSH) giữa c|c node. Bạn cũng có một
v{i lựa chọn để chạy Hadoop l{ sử dụng trên Một m|y đơn, hoặc chế độ giả ph}n t|n. Chúng sẽ
hữu dụng để ph|t triển. Cấu hình Haddop để chạy trong hai node hoặc c|c cluster chuẩn (chế độ
ph}n t|n đầy đủ) được đề cập trong chương 2.3
Vũ Minh Ngọc
25
Phần IV. Lập trình MapReduce cơ bản
1. Tổng quan một chương trình MapReduce
Như chúng ta đã biết, một chương trình MapReuduce xử lý dữ liệu bằng cách tao thác
với các cặp (key/value) theo công thức chung:
map: (K1,V1) ➞ list(K2,V2)
reduce: (K2,list(V2)) ➞ list(K3,V3)
Trong phần này chúng ta học chi tiết hơn về từng giai đoạn trong chương trình
MapReduce điển hình. Hình 3.1 biểu diễn biểu đồ cao cấp của toàn bộ quá trình, và chúng
tôi tiếp tục mỏ xẻ từng phần:
Vũ Minh Ngọc
26
2. Các loại dữ liệu mà Hadoop hỗ trợ
MapReduce framework có một các định nghĩa cặp khóa key/value tuần tự để có thể di
chuyển chúng qua mạng, và chỉ các lớp hỗ trợ kiểu tuần tự có chúng năm giống như key và value
trong framework.
Cụ thể hơn, các lớp mà implement giao diện Writable có thể làm value, và các lớp mà
implement giao diện WritableComparable có thể làm cả key và value. Lưu ý rằng giao diện
WritableComparable là một sự kết hợp của Writeable và giao diện java.lang.Comparable.
Chúng ta cần yêu cầu so sánh các khóa bởi vì chúng sẽ được sắp xếp ở giai đoạn reduce, trong khi
giá trị thì đơn giản được cho qua.
Hadoop đi kèm một số lớp được định nghĩa trước mà implement WritableComparable, bao
gồm các lớp bọ cho tát cả các loại dữ liệu cơ bản như trong bảng 3.1 sau:
Bạn cũng có thể tùy chỉnh một kiểu dữ liệu bằng cách implement Writable (hay
WritableComparable). Như ví dụ 3.2 sau, lớp biểu diễn các cạnh trong mạng, như đường bay
giữa hai thành phố:
Vũ Minh Ngọc
27
import java.io.DataInput;
import java.io.DataOutput;
import java.io.IOException;
import org.apache.hadoop.io.WritableComparable;
public class Edge implements WritableComparable{
private String departureNode; //Node khoi hanh
private String arrivalNode; //Node den
public String getDepartureNode(){
return departureNode;
}
@Override
public void readFields(DataInput in) throws IOException {
// TODO Auto-generated method stub
departureNode = in.readUTF();
arrivalNode = in.readUTF();
}
@Override
public void write(DataOutput out) throws IOException {
// TODO Auto-generated method stub
out.writeUTF(departureNode);
out.writeUTF(arrivalNode);
}
@Override
public int compareTo(Edge o) {
// TODO Auto-generated method stub
return (departureNode.compareTo(o.departureNode) != 0)?
departureNode.compareTo(departureNode):
arrivalNode.compareTo(o.arrivalNode);
}
}
Lớp Edge thực hiện hai phương thức readFields() và write() của giao diện Writeable.
Chúng làm việc với lớp Java DataInput và DataOutput để tuần tự nội dung của các lớp. Thự hiện
phương pháp compareTo() cho interface Comparable. Nó trả lại giá trị -1, 0, +1.
Với kiểu dữ liệu được định nghĩa tại giao diện, chúng ta có thể tiến hành giai đoạn đầu tiên
của xử lý luồng dữ liệu như trong hình 3.1: mapper.
2.1. Mapper
Để phục làm một Mapper, một lớp implements từ interface Mapper và kế thừa từ lớp
MapReduceBase. Lớp MapReduceBase, đóng vai trò là lớp cơ sở cho cả mapper và reducer. Nó
Vũ Minh Ngọc
28
bao gồm hai phương thức hoạt động hiệu quả như là hàm khởi tạo và hàm hủy của lớp:
- void configure(JobConf job) – trong hàm nay, bạn có thể trích xuất các thông số
cài đặt hoặc bằng các file XML cấu hình hoặc trong các lớp chính của ứng dụng của bạn.
Gọi cái hàm này trước khi xử lý dữ liệu.
- void close() – Như hành động cuối trước khi chấm dứt nhiệm vụ map, hàm này nên
được gọi bất cứ khi nào kết thúc – kết nối cơ sở dữ liệu, các file đang mở.
Giao diện Mapper chịu trách nhiệm cho bước xử lý dữ liệu. Nó sử dụng Java Generics của
mẫu Mapper chỗ mà các lớp key và các lớp value mà implements từ interface
WriteableComparable và Writable. Phương pháp duy nhất của nó để xử lý các cặp (key/value)
như sau:
void map(K1 key, V1 value, OutputCollector output,
Reporter reporter
) throws IOException
Phương thức này tạo ra một danh sách (có thể rỗng) các cặp (K2, V2) từ một cặp đầu vào
(K1, V1). OuputCollector nhận kết quả từ đầu ra của quá trình mapping, và Reporter cung cấp
các tùy chọn để ghi lại thông tin thêm về mapper như tiến triển công việc.
Hadoop cung cấu một vài cài đặt Mapper hữu dụng. Bạn có thể thấy một vài cái như trong
bản 3.2 sau:
Bảng 3.2. Một vài lớp thực hiện Mapper được định nghĩa trước bởi Hadoop
- IdentityMapper : với cài đặt Mapper và ánh xạ đầu vào trực tiếp
vào đầu ra
- InverseMapper : với cài đặt Mapper và đảo ngược cặp (K/V)
- RegexMapper : với cài đặ Mapper và sinh ra cặp
(match, 1) cho mỗi ánh xạ (match) biểu thức thường xuyên.
- TokenCountMapper : với cài đặt Mapper sinh ra
một cặp (token, 1) khi một giá trị đầu vào là tokenized.
2.2. Reducer
Với bất cứ cài đặt Mapper, một reducer đầu tiên phải mở rộng từ lớp MapReduce base để
cho phép cấu hình và dọn dẹp. Ngoài ra, nó cũng phải implement giao diện Reducer chỉ có một
phương thức duy nhất sau:
void reduce(K2 key, Iterator values,
OutputCollector output, Reporter reporter
) throws IOException
Khi nhận được các task từ đầu ra của các Mapper khác nhau, nó sắp xếp các dữ liệu đến
theo các khóa của các cặp (key/value) và nhóm lại các giá trị cùng khóa. Hàm reduce() được gọi
sau đó, nó sinh ra một danh sách (có thể rỗng) các cặp (K3, V3) bằng cách lặp lại trên các giá trị
Vũ Minh Ngọc
29
được liên kết với khóa đã cho. OutputCollector nhận từ đầu ra của quá trình reduce và ghi nó ra
đầu ra file. Reporter cung cấp tùy chọn ghi lại thông tin thêm về reducer như là một tiến triển công
việc.
Bảng 3.3 liệt kê một vài reducer cơ bản được triển khai cung cấp bởi Hadoop
- IdentityReducer : với cài đặt Reducer và ánh xạ đầu vào trực
tiếp vào đầu ra
- LongSumReducer : với cài đạt Reducer và
quyết định thổng hợp tất cả các giá trị tương tứng với các key đã cho
Có một bước quan trọng giữa 2 bước map và reduce: chỉ đạo kết quả của các Mapper
tới các Reducer. Đây là trách nhiệm của partitioner (phân vùng).
2.3. Partitioner – chuyển hướng đầu ra từ Mapper
Với nhiều reducer, chúng ta cần một vài cách để xác định một trong những cặp (key/value)
là đầu ra của một mapper được gửi đi. Hành vi mặc định là băm key để xác định reducer. Hadoop
thực thi kiến lược này bằng cách sử dụng lớp HashPartitioner. Thỉnh thoáng lớp này sẽ làm việc
hiệu quả. Trở lại ví dụ Edge như trong phần 3.2.1.
Giả sử bạn sử dụng lớp Edge để phân tích dữ liệu thông tin chuyến bay để xác định số lượng
hành khác khởi hành từ mỗi sân bay. Ví dụ như dữ liệu sau:
(San Francisco, Los Angeles) Chuck Lam
(San Francisco, Dallas) James Warren
...
Nếu bạn sử dụng HashPartitioner, hai dòng sẽ được gửi tới 2 reducer khác nhau. Số các
điểm khới hành sẽ được xử lý 2 lần và cả hai lần đều sai.
Làm thế nào chúng ta có thể tùy chỉnh Partitioner cho ứng dụng của bạn? Trong tinh hình
này, chúng ta muốn tất cả các đường bay với một điểm khởi hành sẽ được gửi tới cùng một reducer.
Điều này được dễ làm bằng cách băm departureNode của Edge:
public class EdgePartitioner implements Partitioner{
@Override
public int getPartition(Edge key, Writable value, int
numPartitions){
return key.getDepartureNode().hashCode() % numPartitions;
}
@Override
public void configure(JobConf conf) { }
}
Vũ Minh Ngọc
30
Phần V. Sơ lược về các thuật toán tin sinh
5.1. Thuật toán Blast
Ý tưởng của BLAST dựa trên cơ sở x|c suất rằng những chuỗi bắt cặp trình tự
(alignment) thường sở hữu nhiều đoạn chuỗi con có tính tương tự cao. Những chuỗi con n{y
được mở rộng để tăng tính tương tự trong qu| trình tìm kiếm.
Thuật to|n của BLAST có 2 phần, một phần tìm kiếm v{ một phần đ|nh gi| thống kê dựa
trên kết quả tìm được.
Thuật to|n tìm kiếm của BLAST bao gồm 3 bước sau:
Bước 1: BLAST tìm kiếm c|c chuỗi con ngắn với chiều d{i cố định W có tính
tương tự cao (không cho phép khoảng trống gaps) giữa chuỗi truy vấn v{ c|c chuỗi
trong cơ sở dữ liệu.
Những chuỗi con với chiều d{i W được BLAST gọi l{ một từ (word). Gi| trị W
tham khảo cho Protein l{ 3 v{ DNA l{ 11.
Những chuỗi con n{y được đ|nh gi| cho điểm dựa trên ma trận thay thế
(Substitutionsmatrix) BLOSUM hoặc PAM, những chuỗi con n{o có số điểm lớn hơn một
gi| trị ngưỡng T (threshold value) thì được gọi l{ tìm thấy v{ được BLAST gọi l{ Hits.
Ví dụ, khi cho sẵn c|c chuỗi AGTTAH v{ ACFTAQ v{ một từ có chiều d{i W = 3,
BLAST sẽ x|c định chuỗi con TAH v{ TAQ với số điểm theo ma trận PAM l{ 3 + 2 + 3 = 8
v{ gọi chúng l{ một Hit.
Bước 2: BLAST tiếp tục tìm kiếp những cặp Hits tiếp theo dựa trên cơ sở những
Hit đ~ tìm được trong bước 1. Những cặp Hits n{y được BLAST giới hạn bởi một gi| trị
cho trước d, gọi l{ khoảng c|ch giữa những Hits. Những cặp Hits có khoảng c|ch lớn hơn
d sẽ bị BLAST bỏ qua.
Gi| trị d phụ thuộc v{o độ d{i W ở bước 1, ví dụ nếu W = 2 thì gi| trị d đề nghị l{
d=16.
Bước 3: Cuối cùng BLAST mở rộng những cặp Hits đ~ tìm được theo cả hai chiều
v{ đồng thời đ|nh số điểm. Qu| trình mở rộng kết thúc khi điểm của c|c cặp Hits không
thể mở rộng thêm nữa.
Một điểm chú ý ở đ}y l{ phiên bản gốc của BLAST không cho phép chỗ trống
(gap) trong qu| trình mở rộng, nhưng ở phiên bản mới hơn đ~ cho phép chỗ trống.
Những cặp Hits sau khi mở rộng có điểm số cao hơn một gi| trị ngưỡng S
(threshold value) thì được BLAST gọi l{ "cặp điểm số cao" (high scoring pair) HSP.
Vũ Minh Ngọc
31
Ví dụ, với chuỗi AGTTAHTQ v{ ACFTAQAC với Hit TAH v{ TAQ sẽ được mở rộng
như sau:
AGTTAHTQ
xxx||||x
ACFTAQAC
Những cặp HSP đ~ tìm được được BLAST sắp xếp theo gi| trị đ|nh gi| giảm dần,
đưa ra m{n hình, v{ thực hiện phần đ|nh gi| thống kê trên những cặp HSP n{y.
Trong phần đ|nh gi| thống kê, BLAST dựa trên cơ sở đ|nh gi| của một cặp HSP
để tính ra một gi| trị gọi l{ ''Bit-Score'', gi| trị n{y không phụ thuộc v{o ma trận thay thế
v{ được sử dụng để đ|nh gi| chất lượng của c|c bắt cặp. Gi| trị c{ng cao chứng tỏ khả
năng tương tựu của c|c bắt cặp c{ng cao. Ngo{i ra BLAST tính to|n một gi| trị trông đợi
E-Score (Expect-Score) phụ thuộc v{o Bit-Score. Gi| trị E-Score n{y thể hiện x|c suất
ngẫu nhiên của c|c bắt cặp, gi| trị c{ng thấp c{ng chứng tỏ những bắt cặp n{y được ph|t
sinh theo quy luật tự nhiên, ít phụ thuộc v{o tính ngẫu nhiên.
5.2. Thuật toán Landau-Vishkin
5.2.1. Một số khái niệm
Cho c|c chuỗi v{ với | | v{ | | ( ) trên một bảng
chữ c|i ∑, chúng ta có một v{i định nghĩa sau:
l{ một chuỗi rỗng
l{ chuỗi con (substring) của khi v{ với v{
. Nếu ta nói rằng l{ chuỗi con ho{n to{n của
l{ tiền tố của nếu v{ với nếu thì ta nói rằng
l{ tiền tố ho{n to{n của
l{ hậu tốt của nếu với . Nếu thì
chúng ta nói rằng l{ hậu tố ho{n to{n của . Chúng ta cũng nói rằng
khi l{ hậu tố thứ của (đó l{ hậu tố của bắt đầu từ vị trí )
Tiền tố chung d{i nhất - ( ) của v{ l{ chuỗi lớn
nhất m{ v{ . Nếu thì
. Chú ý l{ biểu diễn của à . Nếu v{ l{ rõ r{ng trong ngữ
cảnh thì chúng ta viết đơn giản l{ .
Phần mở rộng chung d{i nhất – ( ) của v{ tại
vị trí l{ độ d{i của của v{ . Nếu v{ l{ rõ r{ng trong ngữ cảnh,
chúng ta có thể viết đơn giản l{ .
Trong phần n{y chúng ta gọi chuỗi l{ v{ chuỗi chuỗi l{
Vũ Minh Ngọc
32
5.2.2. Khớp xâu xấp xỉ (Approximate String Matching)
Định nghĩa 1: Edit distance (Khoảng c|ch sửa đổi)
Khoảng c|ch sửa đổi giữa hai x}u v{ l{ số lượng tối thiểu c|c
hoạt động c{n thiết để chuyển đổi th{nh hay th{nh , trong đó c|c hoạt động được định
nghĩa như sau:
Thay thế: Khi một kí tự của được thay thế bằng một kí tự của
Thêm: Khi một kí tự của được thêm v{o vị trí j của
Xóa: Khi một kĩ tự được xóa khỏi
Một chuỗi c|c hoạt động cần thiết để chuyển đổi th{nh được gọi l{ bản ghi sửa đổi
(edit transcript) của th{nh .
Một xắp h{ng (alignment) của v{ l{ một dại diện của c|c hoạt động |p dụng trên
v{ , thường đặt một chuỗi lên trên một chuỗi kh|c, v{ l{m đầy bằng c|c dấu gạch ngang (‘-‘)
v{o vị trí trong v{ tại những chỗ m{ một khoảng trống được thêm v{o để mỗi kí tự hoặc
khoảng trống trên một trong hai string đối diện l{ kí tự duy nhất hoặc khoảng trống duy nhất
trên v{ .
Định nghĩa 2: Approximate string matching with differences (khớp x}u xấp xỉ với k
điểm kh|c)
Khớp x}u với k điểm kh|c giữa một khuôn mẫu v{ văn bản l{ vấn đề của việc tìm
kiếm mỗi cặp vị trí ( trong sao cho khoảng c|ch sửa đổi giữa v{ nhiều nhất l{ .
5.2.3. Giải pháp quy hoạch động
Chúng ta có thể tìm thấy khoảng c|ch sửa đổi giữa hai chuỗi v{ từ
khoảng c|ch:
giữa v{
giữa v{
giữa v{
Bằng c|ch giải quyết quan hệ đệ quy:
{
min
ớ
ì ư
Mối quan hệ n{y có thể được tính to|n bằng một ma trận quy hoạch động đơn giản
sử dụng một bảng quy hoạch động .
Vũ Minh Ngọc
33
5.2.4. Cơ bản về thuật to|n Landau-Vishkin
Landau-Vishkin trình diễn một thuật to|n cho vấn để khớp x}u xấp xỉ với k điểm
kh|c. Thuật to|n n{y chia th{nh hai pha: pha tiền xử lý v{ pha lặp.
Trong pha tiền xử lý, c|c pattern v{ text được tiền xử lý với tính to|n có
Trong pha lặp, thuật to|n lặp lần trên mỗi đường chéo của bảng quy hoạch động v{
tìm ra tất cả c|c xắp h{ng (match) của với nhiều nhất điểm kh|c.
Vũ Minh Ngọc
34
Phần VI. Sơ lược về BlastReduce
6.1. Tóm tắt:
Thế hệ tiếp theo của m|y trình tự DNA sinh ra một chuỗi dữ liệu với tốc độ chưa từng
thấy, nhưng c|c thuật to|n alignment xử lý trình tự đơn truyền thống cố gắng đấu tranh để theo
kịp với chúng. BlastReduce l{ một thuật to|n đọc mapping song song mới tối ưu cho sắp xếp dữ
liệu chuỗi từ c|c m|y tham chiếu tới bộ gen, để sử dụng trong ph}n tích sự đa dạng của sinh học,
bao gồm kh|m ph| SNP, kiểu gen, v{ c| thể gen. Nó được mô hình hóa sau khi sử dụng thuật
to|n liên kết chuối BLAST, nhưng sử dụng c{i đặt hadoop của MapReduce để xử lý song song
trên nhiều node tính to|n. Để đ|nh gi| hiệu quả của nó, BlastReduce đ~ được sử dụng để map
cữ liệu chuỗi thế hệ tiếp theo với một tham chiếu tới hệ gen của vi khuẩn ở một loạt c|c cấu
hình. Kết quả cho thấy quy mô của BlastReduce tăng tuyến tính theo số lượng c|c xử lý chuối, v{
với sự tăng tốc như tăng số lượng bộ vi xử lý. Trong một cấu hình kiêm tốn với 24 bộ vi xử lý,
BlastReduce nhanh gấp 250 lần BLAST xử lý trên một nh}n, v{ giảm thời gian xử lý từ v{i ng{y
xuống còn v{i phút ở cùng mức độ nhạy cảm.
6.2. Read Mapping
Sau khi lập trình tự AND mới được tạo ra để đọc thường được xắp h{ng hoặc |nh xạ với
chuỗi bộ gen tham khảo để tìm c|c vùng m{ diễn ra việc đọc từng khoảng một. Một thuật to|n
|nh xạ đọc (read mapping) b|o c|o tất cả c|c sắp h{ng (alignment) m{ có điểm trong ngưỡng
điểm, thường thể hiện như số lượng tối đa có thể chấp nhận được của sự kh|c nhau giữa read v{
bộ gen tham chiếu (nói chung hầu hết l{ v{o khoảng 1%-10% của chiều d{i read). C|c thuật
to|n liên kết có thể cho phép chỉ c|c mismatche l{ kh|c nhau, vấn đề k-mismatch, hoặc nó cũng
có thể xem xét sắp h{ng có dấu c|ch (gapped alignment) trong trường hợp thêm hoặc xóa kí tự,
vấn đền k-kh|c nhau). Thuật to|n xắp h{ng chuỗi Smith-Waterman cổ điểntính to|n c|c xắp
h{ng có dấu c|ch sử dụng quy hoạch động. Nó xem xét tất cả c|c xắp h{ng có thể của một cặp
c|c chuỗi với thời gian tỉ lệ thuận với độc d{i của chúng. Một biến thể của thuật to|n Smith-
Waterman, được gọi l{ xắp h{ng dải, bản chất cũng sử dụng quy hoạch động nhưng hạn chế việt
tìm kiếm c|c xắp h{ng với một số lượng nhỏ sự kh|c biệt. Với một cặp đơn c|c chuỗi tính to|n
một xắp h{ng Smith-Waterman thì thường l{ một hoạt động nhanh, nhưng sẽ nên tính to|n
không khả thi khi só lượng c|c chuỗi tăng.
Thay v{o đó, c|c nh{ nghiên cứu sử dụng kĩ thuật hạt giống v{ mở rộng để đẩy nhanh
tốc độ tìm kiếm rất giống với xắp h{ng. C|i quan trọng l{ sự quan s|t m{ sự sắp h{ng rất gióng
nhau phải chắc chắn có ý nghĩa sắp xếp. Bằng c|ch sử dụng nguyên lý lồng chim bồ c}u, với
20bp đọc align với một c|i kh|c, bạn phải có ít nhất một xắp h{ng 10bp trong một xắp h{ng n{o
đó. Nói chung, một aligment có độ d{i đấy đủ l{ m bp đọc với e mismatch phải chứa ít nhất một
xắp h{ng m/(e+1) bp. Một số thuật to|n xắp chuỗi tuần tự, bao gồm cả thuật to|n phổ biến l{
công cụ BLAST v{ MUMmer sử dụng kĩ thuật n{y để xắp h{ng nhanh. Trong giai đoạn hạt giống,
c|c công cụ n{y tìm kiếm c|c chuỗi con m{ giống nhau giữa hai chuỗi. Ví dụ, BLAST x}y dụng
Vũ Minh Ngọc
35
một bảng băm có đọ d{i cố định gối c|c chuỗi con được gọi l{ k-mers của chuỗi tham khảo để
tìm hạt giống, v{ MUMmer x}y dụng c}y hậu tố của chuỗi tham khảo để tìm biến chiều d{i lớn
nhất của hạt giống. Sau đó trong pha mở rộng c|c công cụ tính to|n gi| chính x|c trong d{i xắp
h{ng Smith-Waterman giới hạn với chuỗi con tương đối ngắn gần c|c hạt giống được chia sẻ. Kĩ
thuật n{y có thể giảm đ|ng kể thời gian cần thiết để xắp h{ng c|c chỗi tại một mức nhạy cảm. Dù
vậy, sự nhạy cả tăng bằng nhiều c|c kh|c nhau, chiều d{i hạt giống giảm, hay số c|c lượng c|c
hạt giống match ngẫu nhiên sẽ l{m tăng tổng thời gian tính to|n.
Thuật to|n xắp h{ng k-difference Landau-Vishkin l{ một thuậ to|n quy hoạch động thay
thế để x|c định nếu hai xắp h{ng hai chuỗi với hầu hết có k-difference. Không giống như thuật
to|n quy hoạch động Smith-Waterman, m{ x}y dựng tất cả c|c xắp h{ng có thể, thuật to|n
Landau-Vishkin x}y dựng chỉ c|c sắp h{ng giống nhau tới m{ có số lượng c|c điểm kh|c l{ cố
định bằng c|ch tính to|n có bao nhiêu kí tự trong sking có thể được xắp h{ng với i=0 tới k điểm
kh|c nhau. Số lượng c|c kí tự m{ được sắp h{ng sử dụng I điểm kh|c được tính to|n từ kết quả
của (i-1) bằng c|ch tính to|n chính x|c phần mở rộng có thể sau mở đầu một mismatch, một
điểm thêm v{o hoặc xóa từ cuối của xắp h{ng i-1. Thuật to|n kết thúc khi i=k+1, cho thấy không
tồm tại xắp h{ng k-difference cho c|c trình tự, hoặc kết thúc của chuỗi đ~ đạt được. Thuật to|n
nay rất nhan hơn so với thuậ to|n Smitch-WaterMan đầy đủ với số lượng k nhỏ, bởi vì chỉ một
số lượng nhỏ c|c xắp h{ng tiềm năng.
6.3. Thuật toán BlastReduce
BlastReduce l{ một thuật to|n đọc |nh xạ song song (parallel read mapping algorithm)
viết bằng Java với Hadoop. Nó được mô hình trên thuật to|n BLAST, v{ được tối ưu cho |nh xạ
c|c đoạn read nhỏ từ c|c m|y chuỗi thế hệ tiếp theo tới bộ gen tham khảo. Giống như BLAST, nó
l{ thuật to|n hạt giống v{ mở rộng, sử dụng c|c từ có độ d{i cố định l{m hạt giống. Nhưng không
giống với BLAST, BlastReduce sử dụng thuật to|n Landau-Vishkin để mở rộng c|c hạt giống một
c|ch nhanh chóng để tìm c|c xắp h{ng với hầu hết k-difference.
C|i thuật to|n mở rộng n{y thích hợp hơn cho c|c đoạn read ngắn với số lượng nhỏ c|c
kh|c biệt (thường k=1 hoặc k=2 cho 25-50bp read). Kích thước hạt giống (s) l{ tự động được
tính to|n dựa trên độ d{i của read v{ số lượng tối đa c|c kh|c biệt (k) do người sử dụng đưa ra.
Đầu v{o cho ứng dụng l{ một file đa fasta chứa một hoặc nhiều chuỗi tham khảo. C|c file
n{y đầu tiên được chuyển đổi thanh SequenceFile nén của Hadoop thích hợp để xử lý với
Hadoop.SequenceFile m{ không hỗ trợ c|c chuỗi có trình tự lớn hơn 65.565 ký tự để c|c chuỗi
d{i ph}n t|ch th{nh c|c khối. C|c chuỗi được lưu trữ ở dạng cặp key-value trong SequenceFile
như (id, SeqInfo) trong đó SeqInfor l{ một bộ (sequence, start-offset, tag),
trong đó start_offset l{ độ lệch (offset) của khối chứa trong chuỗi đầy đủ. Những c|i khối n{y
xếp xếp chồng lên nhau với s-1 bp để tất cả c|c hạt giống được biểu diễn chỉ một lần v{ c|c
chuỗi tham khảo sẽ được b|o rằng tag=1. Sau khi chuyển đổi, SequenceFile được copy v{o
HDFS để thuật to|n read mapping có thể được thực thi.
Vũ Minh Ngọc
36
Thuật to|n read mapping yêu cầu 3 vòng MapReduce, v{ như mô tả dưới hình 1. Hai
vòng đầu tiên l{ MerReduce v{ SeedReduce, tìm tất cả c|c match lớn nhất m{ có độ d{i ít nhất l{
s, v{ vòng cuối cùng l{ ExtendReduce, mở rộng c|c hạt giống với thuật to|n Landau-Vishkin v{o
tất cả c|c xắp cặp với hầu hết k-difference.
6.3.1. MerReduce: tính các Mer giống nhau
Vòng MapReduce tìm c|c mer có độ d{i s m{ giống nhau giữa chuối read v{ chuỗi tham
khảo. m{m map xử lý tất cả c|c khối một c|ch độc lập, v{ c|c mer chỉ có trong read hoặc chỉ
trong chuỗi tham khảo sẽ tự động được loại bỏ. ExtenReduce cần c|c chuỗi flanking – xếp chính
x|c c|c hạt giống cho xắp h{ng, nhưng HDFS thì không
hiệu quả cho truy cập ngẫu nhiên. Do đó, Flanking
chuỗi (lên tới - s + k bp)
bao gôm c|c mer của chuỗi read v{ chuỗi tham khảo vì
vậy chúng sẽ có sẵn khi cần thiết.
Map: Đối với mỗi mer trong chuỗi đầu v{o,
đầu ra của h{m map l{ (mer, Merpos), trong đó
MerPos l{ cặp (id, position, tag,
left_flank, right_flank). Nếu chuỗi l{ read
(tag =0) vì thể tạo ra c|c bản ghi MerPost cho c|c
chuỗi bổ xung đảo ngược. M{m map tạo ra tất cả l{
s(M+N) mer, trong đó M l{ tổng độ d{i của chuỗi
read, v{ N l{ tổng độ d{i của chuỗi tham khảo. Sau khi
tất cả c|c h{m map ho{n th{nh, Madoop sẽ sắp xếp
nội bộ c|c cặp key-value, nhóm chúng tất cả c|c cặp
m{ có cùng mer v{o một danh s|ch duy nhất c|c bản
ghi Merpos.
Reduce: h{m reduce tạo ra c|c thông tin vị trí
về c|c mer m{ giống nhau ít nhất giữa một chuỗi tham
khảo v{ một chuỗi đọc. Nó đòi hỏi phải có hai đường
tuyền thông giữa một danh s|ch c|c bản ghi Merpos
với mỗi mer. Nó đầu tiên sẽ quét danh s|ch để tìm bản
ghi Merpos từ chuỗi tham khảo. Sau đó nó quét danh
s|ch lần thứ hai v{ kết quả đầu ra l{ một cặp key-
value (read_id, ShareMer) cho mối mer n{o đó
xuất hiện trong read v{ chuỗi tham khảo. Một
sharedMer l{ một cụm bao gồm (read_position,
ref_id, ref_position, read_left_flank,
read_right_flank, ref_left_flank,
Hình 1. Tổng quan về thuật toán
BlastReduce sử dụng 3 vòng MapReduce.
Các file tạm được sử dụng một cách nội
bộ bởi MapReduce là Shared.
Vũ Minh Ngọc
37
ref_right_flank).
6.3.2. SeedReduce: kết hợp các Mer nhất quán
Vòng MapReduce giảm thiểu số lượng c|c hạt giống bằng c|ch s|t nhập c|c mer giống
nhau v{o trong một hạt giống lớn. Hai mer giống nhau sẽ kết hợp nếu chúng lệch 1bp trong
chuỗi read v{ chuỗi reference. Hai mer phù hợp có thể được trộn lại một c|ch an to{n khi chúng
|nh xạ thới c|c xắp đoạn giống nhau.
Map: H{m map tạo ra c|c cặp giống (read_id, SharedMer) giống với đầu v{o. Sau
khi h{m Map kết thúc, tất cả c|c bản ghi SharedMer từ chuỗi đọc đ~ cho sẽ được nhóm nội bộ
với nhau trong pha Reduce
Reduce: với mối danh s|ch SharedMer đầu tiên được sắp xếp bằng c|ch đọc vị trí, v{
c|c mer phù hợp được đặt (collasces) v{o c|c hạt giống. Hạt giống cuối cùng chính x|c được
nối tất cả lại th{nh một chuỗi lớn nhấ có độ d{i tối thiểu l{ s bp. Đầu ra l{ c|c cặp (read_id,
ShareSeed) trong đó SharedSeed l{ một cặp bao gồm (read_position, seed_length,
ref_id, target_position, read_left_flank, read_right_flank,
ref_left_flank, ref_right_flank).
6.3.3. ExtendReduce: mở rộng các hạt giống
C|i vòng MapReduce mở rộng c|c hạt giống xắp h{ng (alignment) v{o trong một xắp
h{ng không chính x|c sử dụng thuật to|n k-dfference Landau-Vishkin.
Map: Đối với mỗi SharedSeed, đoạn m~ cố gắng mở rộng c|c hạt giống giống nhau v{
nối c|c xắp h{ng với nhiều nhất k-difference. Nếu như liên kết tồn tại, đầu ra l{ cặp (read_id,
AlignmentInfo), trong đó AlignmentInfo l{ một cặp (ref_id, ref_align_start,
ref_align_end, num_differences). Sau khi tất cả c|c h{m map ho{n th{nh, Hadoop
nhóm tất cả c|c AlignmentInfor m{ giống read cho h{m reduce.
Reduce: C|c h{m reduce lọc c|c xắp h{ng trùng lặp, vì chúng có thể chứa nhiều hạt
giống trong cùng một xắp h{ng (alignment). Với mỗi read, đầu tiên sắp xếp c|c bản nghi
Alignment bằng trường ref_align_start, v{ sau đó đầu ra duy nhất l{ cặp (read_id,
AlignmentInfo) m{ kh|c nhau trường ref_align_start.
Đầu ra của ExtenReduce l{ một file chứa tất cả c|c xắp h{ng m{ mỗi read với k-
difference. File n{y được copy v{o trong HDFS th{nh một hệ thống file định kì, hoặc tập tin
HDFS có thể được xử lý với c|c công cụ b|o c|o đi kèm.
Vũ Minh Ngọc
38
Tài liệu tham khảo
[1]. Michael C. Schatz - BlastReduce: High Performance Short Read Mapping with MapReduce
[2]. Martin Tompa - Biological Sequence Analysis
[3]. Stephen F. Altschul', Warren Gish', Webb Miller Eugene W. Myers3 and David J. Lipmanl
- Basic Local Alignment Search Tool
[4]. eTutorials.org - Basic local alignment search tool (blast)
[5]. Rodrigo C´esar de Castro Miranda1, Mauricio Ayala-Rinc´on1, and Leon Solon1 -
Modifications of the Landau-Vishkin Algorithm Computing Longest Common Extensions
via Suffix Arrays and Efficient RMQ computations
[6]. Ricardo Baeza-Yates and Gaston H. Gonnet - A New Approach to String searching
Các file đính kèm theo tài liệu này:
- TH055.pdf